找回密码
 立即注册
搜索

谷歌Kaiser为你解读深度学习如何变革自然言语处理

机器之心原创

作者: 鹿者也、ChainnZ

2017 年 1 月 11 日,一个名为 2017 人工智能前沿大会(AI Frontiers Conference)的会议在加利福尼亚圣塔克拉拉举行。包括 Jeff Dean(谷歌大脑的担任人)、邓力(微软人工智能首席研讨员)、Adam Coates(百度人工智能实验室担任人)、Alex Smola(亚马逊机器学习担任人)在内的 20 多位世界级业内人士和研讨学者向 1500 余名参会者分享了人工智能最前沿的发展状况。

在本次会议中,谷歌大脑高级研讨员 Lukasz Kaiser 就自然言语处理的发展现状及目前谷歌翻译的才能做了报告。

自然言语处理是什么?

自然言语处理近些年的变化归因于深度学习的发展。

自然言语处理(NLP)是一个非常大的概念。在本报告中,Lukasz 将其特指为文本到文本的义务(text to text task)。许多言语学家以为文本到文本义务是相对属于符号工程(symbolic project)的范畴,包括语法分析、翻译、言语建模等。

上述义务通常是由人类停止处理的,但神经网络能否为我们代劳?很多人不置信,直至神经网络真的做到了这一点。但神经网络是如何做到的?Lukasz 在接上去的幻灯片中给出了一些解释。

为使神经网络能了解一个句子,我们需求处理的成绩到底是什么?

Lukasz 提到:「一末尾出现神经网络的时分,它次要用来做图像辨认,处理同一个维度上的像素信息。而语句和图像不一样。」[1] 不同的句子由不同数量的词组成,这意味着一个句子的输入维度是不规则的。假如想用神经网络来解析这种状况,循环神经网络(RNN)将会是自然之选。接上去就是训练该网络,假如需求用到的步骤太多,计算的负担将会非常重。那么接上去,我们就用到了长短期记忆(LSTM)。

先进的序列到序列 LSTM

LSTM 让我们可以训练这种循环神经网络。但在 1997 年,在 LSTM 运用的很早期,所能采用的规模很小,没有合适的硬件能处理这样的义务,这些缺陷使得 LSTM 仅仅是一种实际打破。

但是,人们还不能应用这种方法来处理实践的成绩。直到最近这几年(大概是 2014 年),编码器-解码器(encoder-decoder)架构 [3] 的出现使得 LSTM 变成了一种实在可行的方法,该方法不只仅能构筑单层网络,而且能构筑很多层的网络。

在构筑起这些层之后,经过更大的模型我们得到了更好的结果。

Lukasz 接上去给出了一个语法分析的例子。有了从学校学的知识,要读懂一个句子,我们能够会先辨认其中的动词或名词,同时思索一下语法,就像幻灯片 5 中所示的语法分析树那样。而这是以前旧的标准做法,用这种做法去创建自然言语处理模型,去输入词汇含义、语法和句式结构,以使神经网络了解并生成句子。

有别于传统的做法,Lukasz 的研讨团队仅仅是把语法树写成以他们所能想象到最最简单的方式所组成的序列里的一句话,这其中包含了括号和符号。

仅经过编写序列的方式来训练网络,而网络根本不知道什么语法树、或者括号、或者任何背景知识。这样做的成绩在于缺多数据,由于一切的数据(序列)仅来源于研讨人员的编写。相对于旧的训练方法,即输入语法,或者句子结构,新的训练方法似乎在提供背景知识方面更弱。但是,新的方法反而得到了更好的结果,由于网络可以自行学习一切这些知识。

LSTM 也适用于言语模型。言语模型的功能是以复杂度来度量的。更低的复杂度就意味着更好的功能。经过与过去所用模型的对比,复杂度的测量结果急剧地下降,这意味着获得了分明的改进。在 2016 年所达到的最好分数是 28(而 2013 年是 67.6),能达到这样的成绩在以前被以为是不能够的。决议因子是模型的大小。

Lukasz 也给了一些 LSTM 运用于言语建模和句子紧缩方面的例子。

最让人印象深入改进发生在将 LSTM 运用于翻译范畴。正像 Lukasz 所描画的那样,在学校里,我们逐词地学习本国言语。但是假如我们不用这种方式来学,我们就是听人们用那种需求交流,看上去好像也可以。实践上,幼儿们学习就是采用这种方式,这实践上就是神经网络学习的方式。在这种状况下,训练数据的大小和数量是成绩的关键。

翻译的功能由 BLEU 分数来衡量,分值越高功能越好。在过去的两年中,分值从 20.7 提升到了 26.0。Lukasz 的模型大小似乎是决议要素。

在早些年(两年以前),经过训练的网络可以达到「人工系统」(也就是能逐一短语停止转化的短语系统)的程度,并且把它做的越来越大,但却一中转不到比较好的效果。经过比较 PBMT(一种旧的标准翻译模型)和 GNMT(采用了 LSTM 的新模型)的结果你会发现,异样是翻译一个德语句子,新模型的结果很分明更明晰更能让人了解。

这样的结果阐明翻译过程不再是非要人工参与的工作,而可以变成仅仅需求一个大的神经网络和很多次训练而已。正如 Lukasz 所说,该实际对于许多自然言语处理义务都适用。

不过它终究有多好呢?我们能考评它吗?我们请人对谷歌翻译最新发布的神经网络的翻译结果停止评价,评价的分值从 0 到 6,其中 0 分意味着翻译得无厘头,6 分意味着是完美的翻译。而且,为了对新旧系统停止比较,我们请人工的翻译(母语是该言语但不是专业的言语学家)也加入这场比赛,并且也让人们去评分。下一张幻灯片显示了这三种翻译系统的评分结果。

结果显示新的系统有了宏大的改进,而且在某些状况下(比如英语到西班牙语的翻译)几乎和人类的翻译者一样好。经过研讨发现,更大的数据库能产生更好的结果。

LSTM 的局限

但是,序列到序列 LSTM 照旧有一些成绩待处理。Lukasz 列出了其中的两个:

1. 速度的限制

这些模型都很大。鉴于对数据库大小的依赖,牵扯到相当大的计算量,在这种状况下,处理速度是个大成绩。为了延长处理工夫,TPU 在协助研讨人员展开这种翻译的时分是一个很重要的硬件选择。

除此之外,翻译的过程太按部就班了。即便计算的速度非常快,照旧要一个词一个词地来。即便是一个小义务,处理工夫也很慢。为了处理这一成绩,新的并行模型(Neural GPU, ByteNet)也许希冀能协助处理这个成绩。

2. 需求很多数据

序列到序列 LSTM 需求很多数据。为了处理这个成绩,提出了基于留意力和其他能添加数据效率的新架构。其他一些方法可以被用于停止规则化,比如 dropout、信任惩罚(confidence penalty)以及层标准化。

总结

深度学习极大地改变了自然言语处理范畴。序列到序列的 LSTM 在很多自然言语处理义务上获得了业界最好的成绩。Google 翻译将 LSTM 用于产品中,获得了翻译质量的宏大提高。但是,新的模型也带来了一些 LSTM 的成绩,特别是在速度与对大量数据的依赖上。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

大朋友 2019-2-17 13:10:03 显示全部楼层
很好很好很好
回复

使用道具 举报

Cci慕斯 2019-2-17 22:21:00 来自手机 显示全部楼层
赞一个,赞一个
回复

使用道具 举报

杨金研 2019-2-18 10:41:25 显示全部楼层
很看好这个
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies