找回密码
 立即注册
搜索

自然言语处理(NLP)中的迁移学习

Transfer Learning in NLP

迁移学习(Transfer Learning)无疑是目前深度学习中的新热点(相对而言)。在计算机视觉范畴,它曾经运用了一段工夫,人们运用经过训练的模型从庞大的ImageNet数据集中学习特征,然后针对较小的数据针对不同的义务对其停止进一步的训练。但是,在NLP中,迁移学习次要限于运用预训练的单词嵌入(这大大改善了基线)。最近,研讨人员正在努力将整个模型从一项义务转移到另一项义务,这就是本文的主题。

Sebastian Ruder和Jeremy Howard也许是第一个经过其提出的ULMFiT方法,在NLP中的运用了迁移学习方法,该方法超越了一切最新的文本分类技术。

紧接着,OpenAI 在几个NLP义务上扩展了他们的想法,并超越了SOTA。

在2018年NAACL上,获得最佳论文奖的是引见ELMo的论文,该论文是一种新的词嵌入技术,与ULMFiT背后的思想非常相似,该技术来自位于UWash的AllenAI和 Luke Zettlemoyer小组的研讨人员。

在本文中,我将讨论一切这些新工作以及它们之间的互相关系。让我们从Ruder和Howard的引领潮流的架构末尾。

用于文本分类的通用言语模型微调

《Universal Language Model Fine-Tuning for Text Classification》

用于文本分类(或任何其他受监督的NLP义务)的大多数数据集都非常小。这使得训练深度神经网络非常困难,由于深度神经网络倾向于过度拟合这些小的训练数据,并且在实际中不能很好地概括。

在计算机视觉范畴,在庞大的ImageNet语料库上对任何模型停止预训练,是近些年的趋向。这比随机初始化好得多,由于该模型可以学习普通的图像特征,然后可以将其用于任何视觉义务(例如字幕或检测)。

Howard和Ruder从这个想法中得到启示,提出了一个bi-LSTM模型,该模型在普通的言语建模(LM)义务上停止训练,然后在文本分类上停止微调。准绳上讲,这会很好地执行,由于该模型将可以运用从生成式预训练中获得的语 言语义知识。理想地,可以从任何源义务(source task)S到目的义务(target task)T停止此迁移。作者运用LM作为源义务,由于:
    它可以捕获言语的长期依赖long-term dependencies它有效地合并了层级hierarchical关系它可以协助模型学习心情sentimentsLM很容易获得大数据语料库

正式地,“ LM引入了一个假设空间H,该假设空间H对于许多其他NLP义务应该是有用的。”

对于体系结构,他们运用当时的SOTA: AWD-LSTM(应该是一个多层的双向LSTM网络,没有留意力模块,详参Salesforce Research的论文中的详细信息)。该模型在WikiText-103语料库上停止了训练。

训练完通用LM后,可以停止一些微调,将其按原样用于多个分类义务。为了停止这种微调和后续分类,作者提出了3种完成技巧。

区分性微调 Discriminative fine tuning:在LM的微调阶段(针对目的义务),不同的学习速率用于不同的层。这样做是由于这些层捕获了不同类型的信息。

斜三角学习率 Slanted triangular learning rates (STLR):学习率首先线性添加,然后在切割后逐渐降低,即“短暂添加 short increase”和“长工夫衰减 long decay”。这相似于积极的余弦退火学习策略,如今很盛行。

逐渐解冻 Gradual unfreezing:在分类训练时期,LM模型从最后一层末尾逐渐解冻。假如从一末尾就对一切层停止了培训,那么将很快遗忘从LM学习,因此逐渐解冻对于应用转移学习非常重要。

在他们评价的6个文本分类义务上,大多数义务相对提高了18–24%。此外,观察到以下状况:
    分类中只要100个标记的样本足以婚配从头末尾对50–100倍样本训练的模型的功能。预训练对中小型数据更有用。LM质量会影响最终分类功能。

该文中的分析非常片面,学习如何设计实验以获得实证结果。他们提出了一些能够的将来方向,如下所示:
    LM的预训练和微调可以得到改善。LM可以在多义务学习设置中添加其他义务。可以在除分类以外的义务上评价预训练模型。可以停止进一步的分析以确定在预训练时期捕获哪些信息,并在微调时期更改哪些信息。

特别要留意的是1和3,由于这构成了OpenAI在下面讨论的新论文中的新颖性。

经过生成式预训练改善言语建模

《Improving Language Modeling by Generative Pre-training》

该论文在ArXiv上发表,Jeremy Howard本人对此发了推文,说这正是他所希望的“将来方向”工作。

Alec Radford(第一作者)在这里所做的是
    运用Transformer网络(以下详细阐明)代替AWD-LSTM从文本内容到成绩解答,对LM停止各种NLP义务评价。

假如您曾经了解ULMFiT架构,则只需求了解两点即可了解本文:

(a)Transformer的工作方式,以及(b)LM训练的模型如何用于评价不同的NLP义务。

Transformer模型

该博客提供了对该模型的广泛描画,该模型最后是在去年的这一备受喜爱的论文中提出的。在这里,我将引见次要功能。有关详细信息,您可以阅读链接的博客文章或论文本身。
Single layer of Encoder (left) and Decoder (right) that is build out of N=6 identical layers.



基于RNN的seq2seq模型的成绩在于,由于它们是顺序模型,因此无法并行化。为处理此成绩,提出了一种能够的处理方案,其中触及运用带地位嵌入的全卷积网络,但它需求O(nlogn)工夫才能在句子中的某个间隔处关联2个单词。Transformer经过完全消弭卷积或递归,并完全依托自留意力机制 self-attention 来处理此成绩。

在简单的标量点积留意力中,权重是经过获取查询(Q)和键(K)的点积来计算的。一切值V的加权总和即为所需的输入。相反,在多头留意 multihead attention中,将输入向量本身分为多个块,然后将标量点积留意力并行地运用于每个块。最后,我们计算一切块输入的平均值。
Multi-head attention architecture



最后一步包括position-wise FFN,它本身是2个线性变换和每个地位的ReLU的组合。以下GIF非常有效地阐明了此过程。

特定于义务的输入转换 (Task-specific input transformations)

OpenAI论文中的第二个新奇之处是他们如何在几个NLP义务上运用预训练的LM模型。
    文字含义 Textual entailment:文字(t)和假设(h)之间用$串联在一同。这自然使其合适在LM模型上停止评价。文本相似性 Text similarity:由于顺序在这里并不重要,因此将文本按两个顺序串联在一同,然后独立处理并逐一元素添加。问答和常识推理 Question-answering and commonsense reasoning:文本,查询和答案选项之间用一些区分符号衔接在一同,每个这样的样本都会得四处理。然后经过softmax对它们停止归一化,以在能够的答案上产生输入分布。

作者在Book Corpus数据集上训练了Transformer LM,并改进了12项义务中的9项的SOTA。虽然结果的确令人诧异,但分析并不像Howard和Ruder所停止的那样广泛,这能够是由于培训需求在8个GPU上停止一个月的训练。

深度语境化的词表示

《Deep Contextualized Word Representations》

这篇获得了NAACL'18最佳论文奖的论文的主题是,词嵌入应同时包含词级特征和上下文语义。

处理方案非常简单:不只仅将深层Bi-LSTM言语模型的最后一层作为单词表示,而是获取每一层每个外部功能形状的向量,并以加权方式将它们组合以获得最后的嵌入。(obtain the vectors of each of the internal functional states of every layer, and combine them in a weighted fashion )

直觉上,bi-LSTM的较高级别的形状捕获上下文,而较低级别的形状很好地捕获语法。经过比较第一层和第二层嵌入的功能,也可以从阅历上看出这一点。虽然第一层在POS标记上表现更好,但第二层在词义消弭歧义义务上获得了更高的准确性。

对于初始表示,作者选择运用从字符CNN获得的嵌入停止初始化,以便将字符级形 态信息合并到嵌入中。最后,对于L层bi-LSTM,2L + 1,在执行某些层归一化之后,需求将此类矢量组合起来以获得最终表示。

在阅历评价中,ELMo的运用使多项NLP义务的功能相对提高了25%。而且,它大大提高了样本功能。

正如Jeremy Howard所说,迁移学习的确是NLP的下一个热点,这些引领潮流的论文证明了为什么。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

lianhean 2019-11-28 07:41:56 显示全部楼层
lz也多多分享一下感受,想换工作了
回复

使用道具 举报

黄龙long 2019-11-29 08:21:08 来自手机 显示全部楼层
看起来不错
回复

使用道具 举报

伪善の上帝 2019-11-29 19:13:22 显示全部楼层
我擦!我要沙发!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies