智客公社

标题: 一文了解自然言语处理神经史（上） [打印本页]

作者: 黑蝙蝠中队队长 时间: 2019-5-8 17:46
标题: 一文了解自然言语处理神经史（上）
摘要： 越来越火的NLP到底阅历了什么？

本文扩展了Herman Kamper和我在2018年深度学习Indaba组织的自然言语处理前沿课程。整个课程的幻灯片都可以在这里找到，这篇文章将次要讨论NLP中基于神经网络方法的近期停顿。

免责声明：本文尝试将大约15年NLP的发展历程稀释为明天最相关的八个里程碑，因此遗漏了许多相关和重要的发展。特别是，它严重倾向于当前的神经方法，这能够给人留下此时期没有其他有影响力方法的错误影响。

2001年-神经言语模型

言语建模是在给定后面的单词的状况下预测文本中的下一个单词的义务。它能够是最简单的言语处理义务，具有实践运用，如智能键盘和电子邮件呼应建议（Kannan et al.,2016）。言语建模有着丰富的历史。基于n-gram的经典方法采用平滑处理看不见的n-gram（Kneser＆Ney,1995）。Bengio等人于2001年提出了第一种神经言语模型，一种前馈神经网络，如下图1所示。

[attach]138092[/attach]

该模型把n个可以在表C中查找的先前单词向量表示作为输入。如今，这种向量被称为词嵌入。这些词嵌入被衔接并送入隐藏层，然后将其输入提供给softmax层。想要了解更多该模型的信息，请查看此文章。

最近，前馈神经网络已被用于言语建模的递归神经网络（RNN; Mikolov等人，2010）和长短期记忆网络（LSTM; Graves，2013）所取代。近年来曾经提出了许多经典LSTM的新言语扩展模型（请参阅此页面以获得概述）。虽然有这些发展，但经典的LSTM照旧是一个弱小的基线（Melis等，2018）。即便Bengio等人的经典前馈神经网络在某些环境中也与更复杂的模型竞争，但这些通常只学会思索最近的词（Daniluk等，2017）。如何了解这些言语模型捕获的信息是一个活跃的研讨范畴（Kuncoro等，2018; Blevins等，2018）。

言语建模通常是运用RNN时的首选训练场，并成功捕捉到了想象力，许多人经过Andrej的博客文章末尾了解。言语建模是无监督学习的一种方式，Yann LeCun也将预测性学习作为获取常识的先决条件（参见NIPS 2016的Cake幻灯片）。关于言语建模最分明的方面能够是，虽然它很简单，但它是本文讨论的许多后期停顿的核心：

词嵌入：word2vec的目的是简化言语建模；

序列到序列模型：这种模型经过一次预测一个词来生成输入序列；

预训练言语模型：这些方法运用言语模型中的表示来停止迁移学习；

这反过来意味着NLP中许多最重要的最新停顿减少为一种言语建模方式。为了做“真正的”自然言语了解，仅仅从原始方式的文本中学习能够是不够的，我们将需求新的方法和模型。

2008-多义务学习

多义务学习是在多个义务上训练的模型之间共享参数的普通方法。在神经网络中，这可以经过绑定不同层的权重来轻松完成。多义务学习的想法在1993年由Rich Caruana初次提出，并运用于道路跟踪和肺炎预测（Caruana，1998）。直观地说，多义务学习鼓励模型学习对许多义务有用的表示。特别对于学习普通的低级表示，集中模型的留意力或在有限量的训练数据的设置中特别有用。有关多义务学习的更片面概述，请查看此文章。

Collobert和Weston于2008年终次将多义务学习运用于NLP的神经网络。在他们的模型中，查找表（或词嵌入矩阵）在两个在不同义务上训练的模型之间共享，如下面的图2所示。

[attach]138093[/attach]

共享词嵌入使模型可以在词嵌入矩阵中协作和共享普通的低级信息，这通常构成模型中最大数量的参数。Collobert和Weston在2008年的论文中证明了它在多义务学习中的运用，它引领了诸如预训练词嵌入和运用卷积神经网络（CNN）之类的思想，这些思想仅在过去几年中被广泛采用。它博得了ICML 2018的工夫考验奖（参见此时的工夫考验奖论文）。

多义务学习如今用于各种NLP义务，并且应用现有或“人工”义务已成为NLP指令集中的有用工具。有关不同附加义务的概述，请查看此文章。虽然通常预先定义参数的共享，但是在优化过程时期也可以学习不同的共享形式（Ruder等，2017）。随着模型越来越多地在多项义务中被评价来评价其泛化才能，多义务学习越来越重要，最近提出了多义务学习的公用基准（Wang et al，2018; McCann et al，2018）。

2013-词嵌入

文本的稀疏向量表示，即所谓的词袋模型，在NLP中具有悠久的历史。正如我们在下面所看到的，早在2001年就曾经运用了词或词嵌入的密集向量表示。 Mikolov等人在2013年提出的次要创新，是经过移动隐藏层和近似目的来使这些词嵌入的训练更有效率。虽然这些变化本质上很简单，但它们与高效的word2vec一同完成了大规模的词嵌入训练。

Word2vec有两种形式，可以在下面的图3中看到：延续的词袋（CBOW）和skip-gram。它们的目的不同：一个基于周围的词预测中心词，而另一个则相反。

[attach]138094[/attach]

虽然这些嵌入在概念上与运用前馈神经网络学习的嵌入技术没有什么不同，但是对非常大的语料库的训练使它们可以捕获诸如性别，动词时态和国家–首都关系之类的词之间的某些关系，由图4可知：

[attach]138095[/attach]

这些关系及其背后的意义引发了对嵌入词的初步兴味，许多研讨调查了这些线性关系的来源（Arora等，2016; Mimno＆Thompson，2017; Antoniak＆Mimno，2018; Wendlandt等，2018））。但是，运用预训练嵌入作为初始化的固定词嵌入，把它作为当前NLP的次要内容被证明可以提高各种下游义务的功能。

虽然捕获的关系word2vec具有直观且几乎神奇的功能，但后来的研讨表明word2vec没有任何固有的特殊性：经过矩阵分解也可以学习词嵌入（Pennington等，2014; Levy＆Goldberg，2014）和经过适当的调整，经典的矩阵分解方法（如SVD和LSA）可以获得相似的结果（Levy等，2015）。

从那时起，许多工作曾经末尾探求词嵌入的不同方面，可以经过这篇文章了解一些趋向和将来方向。虽然有许多发展，但word2ve照旧是如今被广泛运用的一种盛行的选择。Word2vec的范围甚至超出了词级别：带有负抽样的skip-gram，一个基于本地环境学习嵌入的方便目的，已被运用于学习句子的表示（Mikolov＆Le，2014; Kiros et al.，2015）-甚至超越NLP，运用到网络（Grover＆Leskovec，2016）和生物序列（Asgari＆Mofrad，2015）等。

一个特别令人兴奋的方向是将不同言语的词嵌入投影到同一空间中以完成（零射击）跨言语转移。越来越有能够以完全无监督的方式（至少对于相似言语）学习良好的投影，这开启了低资源言语和无监督机器翻译的运用（Lample等，2018; Artetxe等，2018）。请查看（Ruder等，2018）的概述。

2013年-NLP的神经网络

2013年和2014年是神经网络模型末尾运用于NLP的标志年份。三种次要类型的神经网络被广泛运用：递归神经网络、卷积神经网络、循环神经网络。

递归神经网络（RNN）是处理NLP中普遍存在的动态输入序列成绩的分明选择。 Vanilla RNNs（Elman，1990）很快被经典的长短期记忆网络（Hochreiter＆Schmidhuber，1997）所取代，后者证明其对消逝和爆炸梯度成绩更具弹性。在2013年之前，RNN照旧被以为很难训练，Ilya Sutskever的博士论文是改变这种现状的一个关键例子。LSTM细胞可视化可以在下面的图5中看到。双向LSTM（Graves等，2013）通常用于处理左右上下文。

[attach]138096[/attach]

随着卷积神经网络（CNN）被广泛用于计算机视觉，它们也末尾运用于文本（Kalchbrenner等，2014; Kim等，2014）。用于文本的卷积神经网络仅在两个维度上操作，其中滤波器仅需求沿工夫维度移动。下面的图6显示了NLP中运用的典型CNN。

[attach]138097[/attach]

卷积神经网络的一个优点是它们比RNN更可并行化，由于每个工夫步的形状仅取决于本地环境（经过卷积运算）而不是像RNN取决过去一切形状。CNN可以运用扩张卷积扩展到更宽的感受野，以捕捉更广泛的背景（Kalchbrenner等2016）。 CNN和LSTM也可以组合和堆叠，并且可以运用卷积来加速LSTM。

RNN和CNN都将言语视为一个序列。但是，从言语学的角度来看，言语本质上是等级的：单词被组成高阶短语和子句它们本身可以根据一组消费规则递归地组合。将句子视为树而不是序列的言语启示思想产生了递归神经网络，这可以在下面的图7中看到：

[attach]138098[/attach]

与从左到右或从右到左处理句子的RNN相比，递归神经网络从下到上构建序列的表示。在树的每个节点处，经过组合子节点的表示来计算新表示。由于树也可以被视为在RNN上施加不同的处理顺序，因此LSTM自然地扩展到树。

RNN和LSTM不只仅可以被扩展来运用分层结构，而且不只可以根据本地言语学习词嵌入，而且可以基于语法背景来学习词嵌入（Levy＆Goldberg，2014）；言语模型可以基于句法堆栈生成单词（Dyer et al。，2016）; 图形卷积神经网络可以在树上运转（Bastings等，2017）。

本文由阿里云云栖社区组织翻译。

文章原标题《a-review-of-the-recent-history-of-natural-language-processing》

作者：Sebastian Ruder 译者：虎说八道，审校：。

作者: zheng201010 时间: 2019-5-8 17:51
分享了

作者: fenqi020 时间: 2019-5-8 17:58
分享了

作者: 美团分享 时间: 2019-5-8 18:03
分享了

作者: snowflying30 时间: 2019-5-8 18:04
分享了

作者: 鱼0118 时间: 2019-5-8 18:04
分享了

作者: 暴风熊丶 时间: 2019-5-9 09:19
未完待续哈哈！

欢迎光临智客公社 (http://bbs.cnaiplus.com/)