自然言语处理（NLP）中的迁移学习

柠檬不 · 2019-11-27 19:23:32

Transfer Learning in NLP

迁移学习（Transfer Learning）无疑是目前深度学习中的新热点（相对而言）。在计算机视觉范畴，它曾经运用了一段工夫，人们运用经过训练的模型从庞大的ImageNet数据集中学习特征，然后针对较小的数据针对不同的义务对其停止进一步的训练。但是，在NLP中，迁移学习次要限于运用预训练的单词嵌入（这大大改善了基线）。最近，研讨人员正在努力将整个模型从一项义务转移到另一项义务，这就是本文的主题。

Sebastian Ruder和Jeremy Howard也许是第一个经过其提出的ULMFiT方法，在NLP中的运用了迁移学习方法，该方法超越了一切最新的文本分类技术。

紧接着，OpenAI 在几个NLP义务上扩展了他们的想法，并超越了SOTA。

在2018年NAACL上，获得最佳论文奖的是引见ELMo的论文，该论文是一种新的词嵌入技术，与ULMFiT背后的思想非常相似，该技术来自位于UWash的AllenAI和 Luke Zettlemoyer小组的研讨人员。

在本文中，我将讨论一切这些新工作以及它们之间的互相关系。让我们从Ruder和Howard的引领潮流的架构末尾。

用于文本分类的通用言语模型微调

《Universal Language Model Fine-Tuning for Text Classification》

用于文本分类（或任何其他受监督的NLP义务）的大多数数据集都非常小。这使得训练深度神经网络非常困难，由于深度神经网络倾向于过度拟合这些小的训练数据，并且在实际中不能很好地概括。

在计算机视觉范畴，在庞大的ImageNet语料库上对任何模型停止预训练，是近些年的趋向。这比随机初始化好得多，由于该模型可以学习普通的图像特征，然后可以将其用于任何视觉义务（例如字幕或检测）。

Howard和Ruder从这个想法中得到启示，提出了一个bi-LSTM模型，该模型在普通的言语建模（LM）义务上停止训练，然后在文本分类上停止微调。准绳上讲，这会很好地执行，由于该模型将可以运用从生成式预训练中获得的语言语义知识。理想地，可以从任何源义务（source task）S到目的义务（target task）T停止此迁移。作者运用LM作为源义务，由于：

正式地，“ LM引入了一个假设空间H，该假设空间H对于许多其他NLP义务应该是有用的。”

对于体系结构，他们运用当时的SOTA： AWD-LSTM（应该是一个多层的双向LSTM网络，没有留意力模块，详参Salesforce Research的论文中的详细信息）。该模型在WikiText-103语料库上停止了训练。

训练完通用LM后，可以停止一些微调，将其按原样用于多个分类义务。为了停止这种微调和后续分类，作者提出了3种完成技巧。

区分性微调 Discriminative fine tuning：在LM的微调阶段（针对目的义务），不同的学习速率用于不同的层。这样做是由于这些层捕获了不同类型的信息。

斜三角学习率 Slanted triangular learning rates （STLR）：学习率首先线性添加，然后在切割后逐渐降低，即“短暂添加 short increase”和“长工夫衰减 long decay”。这相似于积极的余弦退火学习策略，如今很盛行。

逐渐解冻 Gradual unfreezing：在分类训练时期，LM模型从最后一层末尾逐渐解冻。假如从一末尾就对一切层停止了培训，那么将很快遗忘从LM学习，因此逐渐解冻对于应用转移学习非常重要。

在他们评价的6个文本分类义务上，大多数义务相对提高了18–24％。此外，观察到以下状况：

该文中的分析非常片面，学习如何设计实验以获得实证结果。他们提出了一些能够的将来方向，如下所示：

特别要留意的是1和3，由于这构成了OpenAI在下面讨论的新论文中的新颖性。

经过生成式预训练改善言语建模

《Improving Language Modeling by Generative Pre-training》

该论文在ArXiv上发表，Jeremy Howard本人对此发了推文，说这正是他所希望的“将来方向”工作。

Alec Radford（第一作者）在这里所做的是

假如您曾经了解ULMFiT架构，则只需求了解两点即可了解本文：

（a）Transformer的工作方式，以及（b）LM训练的模型如何用于评价不同的NLP义务。

Transformer模型

该博客提供了对该模型的广泛描画，该模型最后是在去年的这一备受喜爱的论文中提出的。在这里，我将引见次要功能。有关详细信息，您可以阅读链接的博客文章或论文本身。

Single layer of Encoder (left) and Decoder (right) that is build out of N=6 identical layers.

基于RNN的seq2seq模型的成绩在于，由于它们是顺序模型，因此无法并行化。为处理此成绩，提出了一种能够的处理方案，其中触及运用带地位嵌入的全卷积网络，但它需求O（nlogn）工夫才能在句子中的某个间隔处关联2个单词。Transformer经过完全消弭卷积或递归，并完全依托自留意力机制 self-attention 来处理此成绩。

在简单的标量点积留意力中，权重是经过获取查询（Q）和键（K）的点积来计算的。一切值V的加权总和即为所需的输入。相反，在多头留意 multihead attention中，将输入向量本身分为多个块，然后将标量点积留意力并行地运用于每个块。最后，我们计算一切块输入的平均值。

Multi-head attention architecture

最后一步包括position-wise FFN，它本身是2个线性变换和每个地位的ReLU的组合。以下GIF非常有效地阐明了此过程。

特定于义务的输入转换（Task-specific input transformations）

OpenAI论文中的第二个新奇之处是他们如何在几个NLP义务上运用预训练的LM模型。

文字含义 Textual entailment

文本相似性 Text similarity

问答和常识推理 Question-answering and commonsense reasoning

作者在Book Corpus数据集上训练了Transformer LM，并改进了12项义务中的9项的SOTA。虽然结果的确令人诧异，但分析并不像Howard和Ruder所停止的那样广泛，这能够是由于培训需求在8个GPU上停止一个月的训练。

深度语境化的词表示

《Deep Contextualized Word Representations》

这篇获得了NAACL'18最佳论文奖的论文的主题是，词嵌入应同时包含词级特征和上下文语义。

处理方案非常简单：不只仅将深层Bi-LSTM言语模型的最后一层作为单词表示，而是获取每一层每个外部功能形状的向量，并以加权方式将它们组合以获得最后的嵌入。（obtain the vectors of each of the internal functional states of every layer, and combine them in a weighted fashion ）

直觉上，bi-LSTM的较高级别的形状捕获上下文，而较低级别的形状很好地捕获语法。经过比较第一层和第二层嵌入的功能，也可以从阅历上看出这一点。虽然第一层在POS标记上表现更好，但第二层在词义消弭歧义义务上获得了更高的准确性。

对于初始表示，作者选择运用从字符CNN获得的嵌入停止初始化，以便将字符级形态信息合并到嵌入中。最后，对于L层bi-LSTM，2L + 1，在执行某些层归一化之后，需求将此类矢量组合起来以获得最终表示。

在阅历评价中，ELMo的运用使多项NLP义务的功能相对提高了25％。而且，它大大提高了样本功能。

正如Jeremy Howard所说，迁移学习的确是NLP的下一个热点，这些引领潮流的论文证明了为什么。

lianhean · 2019-11-28 07:41:56

lz也多多分享一下感受，想换工作了

黄龙long · 2019-11-29 08:21:08

看起来不错

伪善の上帝 · 2019-11-29 19:13:22

我擦！我要沙发！

		自动登录	找回密码
密码			立即注册

自然言语处理（NLP）中的迁移学习

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们