现有模型还「不懂」自然言语：20多位研讨者谈NLP四大开放性成绩

xzz111116 · 2019-1-22 13:18:30

选自ruder.io

作者：Sebastian Ruder

机器之心编译

参与：张倩、王淑婷

在由 DeepMind 主办的 Deep Learning Indaba 2018 深度学习峰会上，20 多名 NLP 范畴的研讨者接受采访，就 NLP 的研讨现状、当前困境和将来走向等成绩发表了本人的见解。很多研讨者指出：自然言语了解才是当前 NLP 发展的最大成绩。

采访实录：https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit

Deep Learning Indaba 2018 是由 DeepMind 主办的深度学习峰会，于往年 9 月份在南非斯泰伦博斯举行。会上，AYLIEN 研讨迷信家 Sebastian Ruder、DeepMind 高级研讨迷信家 Stephan Gouws 和斯泰伦博斯大学讲师 Herman Kamper 组织了自然言语处理前沿会议（Frontiers of Natural Language Processing session），采访了 20 多名 NLP 范畴的研讨者。不久前，Sebastian Ruder 公布了这次采访的说话实录和大会演讲的 PPT，对整个采访停止了总结。本文基于当时的专家采访和专题讨论写成，次要讨论 NLP 范畴中的 4 个次要开放性成绩：

自然言语了解

我以为最大的开放性成绩是关于自然言语了解的。我们应该经过构建文本表征，开发出能像人类一样阅读和了解文本的系统。在那之前，我们一切的提高都只是在提升系统形式婚配的才能。

——Kevin Gimpel

在专家采访中，很多专家以为自然言语了解（NLU）成绩是最核心的，由于它是很多义务的先决条件（如自然言语生成）。他们以为目前的模型都还没有「真正」了解自然言语。

固有偏置 vs 从头学习

一个关键的成绩是我们应该在模型中加入哪些偏置项和结构才能愈加接近自然言语了解。很多专家在采访中提到模型应该学习常识。此外，他们也多次提到对话系统（和聊天机器人）。

另一方面，关于强化学习，David Silver 以为我们最终会想要让模型自学一切，包括算法、特征和预测。很多专家持相反观点，以为应该在模型中嵌入了解模块。

程序合成

Omoju Miller 以为在模型中嵌入了解模块非常难，我们不知道 NLU 背后的机制以及如何评价它们。她以为我们或答应以从程序合成中获取灵感，基于高级规范自动学习程序。此类想法与神经模块网络和神经编程器-解释器（neural programmer-interpreter）有关。

她还建议我们应该回顾上世纪八九十年代开发的方法和框架（如 FrameNet），并将它们与统计方法结合起来。这应该会有助于我们推断对象的常识属性，如汽车能否是交通工具、汽车能否有把手等。推断此类常识知识是近期 NLP 数据集的重点。

具身学习（Embodied learning）

Stephan Gouws 以为我们应该运用结构化的数据源和知识库（如 Wikidata）中的信息。他以为人类经过阅历和互动，将周围环境作用于身体来学习言语。有人能够以为存在一种学习算法，在具有适当奖励结构的信息丰富的环境中，该算法用于智能体时可以从头学习 NLU。但是，此类环境的计算量是宏大的。AlphaGo 需求宏大的基础设备才能处理定义完善的棋盘游戏。持续学习的通用算法的创建与终身学习和通用成绩求解器有关。

很多人以为既然我们在野着具身学习的方向行进，我们就不应该低估完全具身智能体所需的基础设备和算力。因此，等待合格的具身智能体学习言语似乎是天方夜谭。但是，我们可以逐渐接近这个终点，如在模拟环境中的 grounded 言语学习、应用多模态数据学习等。

情感

Omoju 以为将人类情感等要素融入具身智能体是很困难的。一方面，了解情感需求对言语有更深层的了解。另一方面，我们能够不需求真正具有人类情感的智能体。Stephan 表示图灵测试被定义为模拟性和反社会的，虽然没无情感，却可以诈骗人类，使人们以为它无情感。因此我们应该尝试找到无需具身和具有情感的处理方案，但它们又能了解人类情感、协助人类处理成绩。的确，基于传感器的情感辨认系统在不断改进，文本情感检测系统也有很大提高。

认知和神经迷信

会上有观众发问，我们构建模型时应用了多少神经迷信和认知迷信知识。神经迷信和认知迷信知识是灵感的重要来源，可用作塑造思想的指南。举例来说，多个模型试图模拟人类的思想才能。AI 和神经迷信是互补的。

Omoju 引荐大家从认知迷信实际中获取灵感，如 Piaget 和 Vygotsky 的认知发展实际。她还敦促大家停止跨学科研讨，这惹起了其他专家的共鸣。例如，Felix Hill 引荐大家参加认知迷信会议。

低资源场景下的 NLP

应对数据较少的场景（低资源言语、方言等）不是一个完全「空白」的成绩，由于该范畴曾经有了很多颇有前景的思绪，但我们还没找到一个处理这类成绩的普适方案。

——Karen Livescu

我们探求的第二个主题是在低资源场景下泛化至训练数据之外的范畴。在 Indaba 的场景下，一个自然的关注点就是低资源言语。第一个成绩聚焦于能否有必要为特定的言语开发专门的 NLP 工具，还是说停止通用 NLP 研讨曾经足够了。

通用言语模型

Bernardt 以为，言语之间存在着普遍的共性，可以经过一种通用言语模型加以应用。那么应战就在于如何获取足够的数据和算力来训练这样一个言语模型。这与最近的训练跨言语 Transformer 言语模型和跨言语句子嵌入的研讨亲密相关。

跨言语表征

Stephan 表示，研讨低资源言语的学者还不够充足。光是非洲就有 1250-2100 种言语，大部分没有遭到 NLP 社区的关注。能否开发公用工具也取决于待处理的 NLP 义务类型。现有模型的次要成绩在于其样本效率。跨言语词嵌入对样本的应用非常高效，由于它们只需求词的翻译对，甚至只用单语数据也可以。它们可以很好地对齐词嵌入空间，以完成主题分类等粗粒度义务，但无法完成机器翻译等细粒度义务。但是，最近的研讨表明，这些嵌入可以为无监督机器学习创建重要的构建块。

另一方面，应对问答等高级义务的复杂模型需求学习数以千计的训练样本。将需务实践自然言语了解的义务从高资源言语转移到低资源言语照旧非常具有应战性。随着此类义务的跨言语数据集（如 XNLI）的发展，开发用于更多推理义务的弱小跨言语模型应该会变得更容易。

收益与影响

资源不足的言语本质上只要大批的文本可用，在这种状况下 NLP 的优势能否会被限制也是一个成绩。Stephan 表现出了激烈的不赞同见，他提示我们，作为 ML 和 NLP 的从业者，我们往往倾向于用信息论的方式看成绩，如最大化数据的能够性或改进基准。退一步讲，我们研讨 NLP 成绩的真实缘由是构建克制壁垒的系统。我们想构建一些模型，让人们可以阅读非母语的旧事、在无法看医生的状况下讯问健康成绩……

思索到这些潜在的影响，构建低资源言语系统实践上是最重要的研讨范畴之一。低资源言语能够没有太多数据，但这种言语非常多。理想上，大多数人说的都是一种资源贫乏的言语。因此，我们的确需求找到让系统在这种设定下运转的方法。

Jade 以为，我们这个社区聚焦于拥有大量数据的言语，由于这些言语在全世界都有良好的教育，这似乎有点讽刺。真正需求我们关注的是那些没有太多可用数据的低资源言语。Indaba 的精妙之处在于，外面的人正在推进这种低资源言语的研讨，并获得了一些停顿。思索到数据的稀缺性，即便像词袋这种简单的系统也能对理想世界产生严重影响。听众 Etienne Barnard 指出，他观察到了理想世界中语音处理的一种不同效果：与运用母语系统相比，假如英语系统适用于用户的方言，他们往往更有动力运用英语系统。

动机和技能

另一位听众说，人们更有动机去做有高度可视化基准的工作，如英德机器翻译，但在低资源的言语方面缺乏动机。Stephan 以为，动机就是该成绩还未处理。但是，正确的人口统计材料中没有处理这些成绩所需的技能。我们应该专注于教授机器翻译等相似技能，以协助大家获取处理这些成绩的才能。但是，假如跨言语基准测试变得愈加普遍，低资源言语范畴也将获得更多停顿。

数据可及性

Jade 最后提到，低资源言语（如非洲的一些言语）缺乏可用的数据集是一大成绩。假如我们创造数据集并使其非常容易获得（如将其放在 openAFRICA 上），这将极大地激励大家并降低入门门槛。提供多种言语的测试数据通常就足够了，由于这可以协助我们评价跨言语模型并跟踪进度。另一个数据资源是 South African Centre for Digital Language Resources（SADiLaR），该资源包含很多南非语种。

对大型文本和多个文本停止推理

高效表征大型文本。现有模型次要基于循环神经网络，该网络无法良好地表征较长的文本。受图启示的 RNN 工作流程具有发展潜力，由于它们比普通的 RNN 要愈加容易训练，虽然目前只看到了有限的改进，而且还没有被广泛采用。

——Isabelle Augenstein

对大型文本和多个文本停止推理也是一个较大的开放性成绩。最近的 NarrativeQA 数据集是符合这一背景的一个很好的基准示例。运用很大的语境停止推理与 NLU 严密相关，需求大幅度扩展现有系统，使其可以阅读整本书或整个电影剧本。这里有一个关键成绩：我们需求训练更好的模型还是仅仅在更多数据上训练？此处不展开讨论。

OpenAI Five 等研讨表明，假如大幅添加数据量和计算量，现有模型可以完成的义务将非常可观。有了足够的数据，现有模型在更大的语境中也能表现出很好的功能。成绩在于，有大量文本的数据非常少见，获取成本也非常昂贵。与言语建模和 skip-thoughts 相似，我们可以想象一个文件级别的无监督义务，要求预测一本书的下一个段落或下一个章节，或者决议下一章应该是哪一章。但是，这个目的很能够太简单——效率低下，无法学习有用的表征。

开发可以在阅读文件时愈加高效地表征语境并追踪相关信息的方法似乎是一个愈加适用的方向。多文件摘要和多文件问答与这一研讨方向分歧。相似地，我们可以应用提高后的内存才能和终身学习才能来构建模型。

数据集、成绩和评价

或许最大的成绩是如何定义成绩本身。正确定义成绩指的是构建数据集和评价步骤来恰当地衡量我们在详细目的上的停顿。假如能将一切成绩都简化为 Kaggle 风格的竞赛，事情就简单多了！

——Mikel Artetxe

本文没有空余篇幅讨论当前基准测试和评价设置的成绩，相关回答可以参考调查结果。最后一个成绩是，非洲社会最亟待处理的 NLP 成绩是什么。Jade 给出的答案是资源不足成绩。让人们借助翻译用本人的言语接触一切感兴味的教育资源是非常重要的一件事情。

原文链接：http://ruder.io/4-biggest-open-problems-in-nlp/

本文为机器之心编译，转载请联络本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

小DO爱小丹 · 2019-1-22 19:41:53

LZ帖子不给力，勉强给回复下吧

toto81lg · 2019-1-23 10:45:59

向楼主学习

		自动登录	找回密码
密码			立即注册

现有模型还「不懂」自然言语：20多位研讨者谈NLP四大开放性成绩

本帖子中包含更多资源

大神点评2

最近发表

公社版块

关注我们