ACL 2019全程回顾：自然言语处理趋向

新丰江边 · 2019-8-8 14:18:15

【新智元导读】Alexa AI机器学习迷信家回顾并总结了ACL 2019会议内容，从减少成见、落地运用、模型整合才能等多个方面对目前NLP范畴的发展趋向停止了总结。
本周，在佛罗伦萨举行的ACL 2019上，参会者中有一个人感慨良多，他就是Alexa AI的机器学习迷信家Mihail Eric。

他在Alexa的工作和研讨内容与自然语义、会话亲密相关。而此次大会可以说聚集了来自世界各地的NLP范畴最优秀的研讨人员，水准之高无需多言。

参加会议就是这样，总会有一种在知识的湍流中激流勇进的感觉。你身边充斥着论文、演讲、创意和才华横溢的人。犹疑就会糜费，果断又会错过，真是让人左右为难。
不过好在Eric是个擅长总结的人。他将本人在ACL 2019一周工夫里的所见所闻梳理了出来，从中我们得以更直接的了解NLP范畴在2019年的动态和趋向，以及将来的发展方向。

社区在努力处理NLP地域成见和性别成见

ACL主席周明在开幕致辞中指出，往年的ACL是历史上规模最大的，共提交了2900多份论文，比2018年添加了75％！自然言语处理范畴炙手可热，学术和行业热情创历史新高。

但是，全球范围来看，NLP研讨的发展极度不平衡，基本上在NLP上的一切打破性成果都集中在美国和中国，这两国在研讨程度上远远抢先于其他国家和地区。这样的形状容易出现地域成见的风险，缺乏多样化的观点。
周明根据他在亚太地区的NLP社区阅历，指出了一个能够的处理方案，就是在那些代表性不足的地区举行更多的学术会议和活动，这样可以刺激当地NLP研讨的积极性。目前也有相关案例，比如在非洲举行的深度学习Indaba活动。
除了地域成见之外，还有性别成见。一些论文经过实证研讨强调了这些理想。例如，Stanovsky等物证明了四种工业机器翻译系统以及两种当前最先进的学术（SOTA）模型都非常容易出现基于性别成见的翻译错误。
NLP社区很清楚这个成绩。提出了许多有意思的作品来试图处理上述翻译成绩，如Kaneko等开发了一种词汇嵌入的去除方法，可以保留非歧视性别相关信息，同时消弭陈规定型的性别成见。
而且往年的ACL还在NLP研讨会上第一次针对性别成见成绩举行了会议，并扩展了NLP研讨会的范围，这些研讨会将研讨这些成绩的研讨人员聚集在一同，提高看法，并促进富有成果的讨论。
当然，NLP社区将来还有很多工作要做，但看到社区采取积极措施来缓解成见成绩令人鼓舞。

NLP运用程序曾经非常丰富

NLP研讨的当前形状是令人振奋的。

由于NLP范畴如今处于技术和运用相交融的阶段，目前开发的模型和工具可以运用在很多场景下，处理许多实践成绩，会议上展现的各种NLP运用程序也让这一点变得明晰起来。
在神经网络生成的假旧事成为一大成绩的时代，验证叙说内容的真实性正变得越来越重要。hengli Hu的研讨建立了一个系统，应用声学和言语特征来辨认文本和语音中隐藏的信息，表现超过人类达15％！
在健康范畴，Shardlow等人开发了一种神经网络模型，用于经过特定于某些域的短语列表，让医生编写的临床信息对患者而言更具可读性。在相关研讨中，Du等人提出了从临床对话中提取症状以及基线模型的义务，以减少初级医生在与临床文献系统交互上所花费的工夫。
往年的ACL还有一个专门讨论NLP运用于生物学成绩的研讨会。Fauqueur等人提出了从生物医学文献中提取新理想的技术，无需培训数据或手工制造的规则。Rajagopal和Vyas等人经过在大型数据集上预先训练LSTM-CRF模型，然后在低资源语料库上停止微调，在标准数据集上完成21 F1点的改进，从而将语义角色标记系统顺应生物过程！
NLP的其他很酷的运用还有包括Zhang等人的研讨，该研讨提出了电子邮件标题生成的成绩（就像Gmail的智能回复，但是用于生成电子邮件标题），从自动和人工评价结果来看，这是个有发展前景的成绩模型。

先预训练，然后微调：NLP的新范例

正如神经网络在2011年忽然彻底改变了计算机视觉范畴，自然言语处理的深度学习的故事异样也是一个“爆炸性和疾速增长”的故事。
从2015年到2017年，NLP中的大多数义务都可以经过一个相对简单的公式来处理：经过某种延续的矢量表示嵌入文本输入，编码这些表示，参与编码表示，然后预测义务。Matthew Honnibal在一篇文章中很好地描画了这种方式主义。
虽然在概念上很简单，嵌入，编码，参与，预测公式曾一度几乎不可阻挠的在一切类型的义务上完成SOTA结果，例如机器翻译，问答和自然言语推理等等。
如今，随着弱小的预训练表示的出现，运用ELMO，OpenAI GPT和BERT等言语建模目的的某些风格停止训练，这种模型是在庞大的数量上预先训练的运用一些较小的域内语料库对数据停止微调和微调。实践上，这一战略曾经成功地在现有的NLP基准测试中获得了宏大的SOTA成果。
Dai和Yang等人寻求进一步推进基于transformer的言语超级模型，极大地提高速度并完成SOTA困惑数量。这个新范式的另一个非常有代表性的工作是Liu和He等人应用基于BERT的架构来抢先GLUE基准测试排行榜（在提交时）。
除了这些工作本身，围绕会议的普通性讨论是，假如他们运用像BERT这样的东西，许多架构可以完成几个百分点的改进。那么成绩就变成了：这种新范式能否使NLP中的许多建模创新变得无足轻重？
Eric个人观点能否定的。总的来说，照旧有许多工作照旧是未充分探求的，对于推进NLP停顿的下一次迭代至关重要。

将知识融入NLP架构中

虽然现有的预训练言语超模型体系结构非常弱小，但是从原始文本语料库中停止训练的方式可以鼓励您获得学习的乐趣。换句话说，这类模型学到的东西是相当不受约束的，他们的优越表现能够只是可以在宏大的数据集中发现不同背景下的许多文本序列实例。我们可以经过拓展基础知识来源，提供更多的信息来让NLP模型的才能超出这个范围吗？
ACL有很多论文在试图处理这个成绩。比如有研讨人员运用类型化实体嵌入和底层知识图对齐来加强BERT表示，让他们的模型在实体类型和关系分类方面胜过BERT。还有人经过KT-NET处理了这个成绩，KT-NET运用留意力机制交融来自知识库（如WordNet和NELL）的选定信息，从而在Squad 1.1上刷新了SOTA。
另一篇好文章是Logan等人的论文，此文提出了知识图言语模型，这是一种生成体系结构，可以从与基础上下文相关的知识图中有选择性地复制理想，功能优于强基线言语模型。
虽然将知识融入神经模型的确是一个难题，但从目前的结果来看，似乎很有希望！

模型的可解释性成绩仍是关注热点

众所周知，神经网络属于黑盒模型，为此，要真正了解所学习的决策函数是特别困难的。姑且不论追求这些模型的完全可解释功能否相对必要，但可以说，对模型外部结构的某种程度的了解可以为将来的架构设计提供有用的信息。ACL上的几篇好文章为了解现有模型提供一些新启示。
塞拉诺团队的研讨表明，虽然有时分留意力机制对表明模型结构的概念非常重要，但有些状况下，其他替代性排项目的能够会更有效地解释模型的决策过程。
Jawahar团队则讨论BERT学习的言语结构，证明BERT的层学习丰富的言语信息，如底层的表面特征，中间层的句法特征和顶层的语义特征。作者进一步建议，更深层的网络是学习长间隔彼此相关的信息所必需的条件。
还有其他一些文章着力处理模型的可解释性成绩。Gehrmann团队开发了一种工具，经过对预测单词标记的模型密度停止可视化，来检测神经网络生成的假文本，检测准确率提高了近20％。Sydorova团队研讨了一些预先解释的方法，如问答系统上的LIME，证明某些技术可以协助人类从几个QA模型中辨认出最优秀的那个。

重新思索自然言语生成中的评价和假设

自然言语生成的评价的概念照旧是一个非常有争议的成绩，因此这种重新思索是值得倡导的。
Maxime Peyrard证明，在评价某些评分范围内的表现时，某些自动评价汇总目的是不分歧的。Clark团队根据句子移动的相似性提出了一个新的生成文本评价目的，与标准ROUGE相比，该目的与人类判别的相关性更强。
模型生成的文本往往会遭到理想错误和虚伪陈述的影响。Falke团队研讨了能否可以将自然言语推理系统用于重新陈列输入，作为处理这一成绩的方法。他们发现，“开箱即用”的NLI系统还不足以顺应下游义务，并提供了一些必要的工具，让这些推理系统达到所需的功能。
Maxime Peyrard还停止了更为基础的研讨工作，对冗余、相关性和信息性等某些概念停止了实际上严厉的实际定义。
除了评价相关的工作之外，Sankar团队对传统的递归网络和基于transformer的seq2seq对话模型可以从对话历史中学习的假设提出了质疑。特别是，他们表明这些模型对运用于背景的某些扰动不是非常敏感，从而对对话自然言语生成器的效果提出了应战。

探求“预训练-微调”之外的范式

我们常常运用基准测试来衡量义务的表现和功能改进，而这些模型中许多模型曾经接近或超过了这些现有NLP基准测试的人类表现。那么我们怎样办？
这是Zellers团队提出的成绩。在早期的研讨中，他们曾经面向常识NLP的成绩引入了一个应战数据集，但在发布之后不久就发现，BERT曾经达到了接近人类的表现。为了处理这个成绩，作者提出了一个后续数据集，该数据集是运用“对抗性过滤”的技术开发，用于选择BERT和其他模型难以回答的示例。在此过程中，他们大大添加了基准的复杂度。
BERT当然不是完美的。Nangia等人的一项研讨表明，基于BERT的模型在稀缺资源句子分类义务上的表现并不好，并提出了名为SuperGLUE的后续自然言语了解基准模型，专门用于评价这类义务。
McCoy等人的另一项研讨表明，用于自然言语推理的BERT模型学习的是非常简单的句法启示式方法，这些方法不能很好地适用于为其他义务虚例。他们还发布了一个评价集，以确定模型能否采用这些启示式算法，处理更普通的推理成绩。
总而言之，我的感觉是，目前的大部分模型仍在处理数据集成绩，而不是处理实践义务。我们构建的模型在选择并应用特定于数据集的偏向方面效果惊人。在此过程中，我们制定的评价目的描画出了具有相当误导性的场景。这让我想起了古德哈特定律：当手腕变成了目的，它就不再是一个好的衡量标准。那么我们如何继续行进呢？
鉴于这些评价标准是自然言语义务的代理，而且在模型开发停顿迅速的状况下，想让基准保持不变似乎是不合理的。相反，我发现特别有希望的一条路是，开发一套难度不断添加的、不断变化的动态基准，每个基准都可以进一步推进自然言语才能的提升。也许这套基准的功能极限，这就在机器中完成人类级的NLP表现。

写在最后

从这次ACL的论文来看，NLP的范畴正在蓬勃发展！社区正在处于一个非常激动人心的时期，也有许多有出路的研讨。虽然过去的一年NLP范畴获得了本质性停顿，但仍有许多突出的应战和未处理的成绩需求处理。

原文链接：

https://www.mihaileric.com/posts/nlp-trends-acl-2019/

apolo · 2019-8-8 14:29:53

分享了

喜喜1234 · 2019-8-8 14:39:15

分享了

lemon蓝 · 2019-8-8 14:40:54

分享了

手挥一挥 · 2019-8-8 14:49:01

分享了

那夜我错了 · 2019-8-8 14:51:40

分享了

丶铭丶记 · 2019-8-8 14:53:01

分享了

玥瑩 · 2019-8-9 17:02:42

看起来好像不错的样子

gu1591777 · 2019-8-10 16:17:49

大人，此事必有蹊跷！

		自动登录	找回密码
密码			立即注册

ACL 2019全程回顾：自然言语处理趋向

本帖子中包含更多资源

大神点评8

最近发表

公社版块

关注我们