沈向、洋周明：神经自然言语处理停顿综述：建模，学习，推理

sbiyjiu · 2020-8-23 17:30:02

来源：专知

本文约3200字，建议阅读5分钟。

本文将从建模、学习和推理三个方面综述基于神经网络的神经言语处理框架(neural NLP)的最新停顿。

深度神经网络极大促进了自然言语处理技术的发展。来自微软亚研的周明、段楠、刘树杰、沈向洋发表了神经自然言语处理的停顿，从表示到建模再到推理，共16页pdf，值得详细查看。

https://www.sciencedirect.com/science/article/pii/S2095809919304928
摘要

自然言语处理(NLP)是人工智能的一个子范畴，其重点是使计算机可以了解和处理人类言语。在过去的五年里，我们见证了NLP在机器翻译、问答和基于深度学习的机器阅读了解等义务上的疾速发展，以及海量的带注释和未带注释的数据。本文将从建模、学习和推理三个方面综述基于神经网络的神经言语处理框架(neural NLP)的最新停顿。在建模部分，我们将描画几种基本的基于神经网络的建模范例，如单词嵌入、句子嵌入和序列到序列的建模，这些在古代NLP引擎中被广泛运用。

在学习部分，我们将引见广泛运用的NLP模型的学习方法，包括监督学习、半监督学习和无监督学习;多义务学习;迁移学习;和自动学习。我们以为推理是神经NLP的一个新的和令人兴奋的方向，但它还没有被很好地处理。在推理部分，我们将回顾推理机制，包括知识，现有的非神经推理方法，和新的神经推理方法。我们在本文中强调推理的重要性，由于它对于建立可解释的和知识驱动的神经网络规划模型来处理复杂的义务是很重要的。在本文的最后，我们将简要概述我们对神经言语处理的将来发展方向的思索。
引见

自然言语处理(Natural Language Processing, NLP)是人工智能(AI)的一个重要分支，经过自然言语研讨人与计算机之间的交互。它研讨单词、短语、句子和文档的意义表达的基础技术，以及句法和语义处理(如断句、句法分析器和语义解析)的基础技术，并开发诸如机器翻译(MT)、问答(QA)、信息检索、对话、文本生成和引荐系统等运用程序。NLP对于搜索引擎、客户支持系统、商业智能和语音助手至关重要。

NLP的历史可以追溯到20世纪50年代。在NLP研讨之初，我们运用基于规则的方法来构建NLP系统，包括单词/句子分析、QA和MT。这些由专家编辑的规则被用于从MT末尾的各种NLP义务的算法中。通常，设计规则需求大量的人力。此外，当规则数量很大时，很难组织和管理规则。20世纪90年代，随着互联网的疾速发展，出现了大量的数据，这使得统计学习方法可以用于处理NLP义务。运用人工设计的特征，统计学习模型经过运用标记/发掘数据学习。统计学习方法为许多自然言语处理义务，特别是MT和搜索引擎技术带来了分明的改进。2012年，随着深度学习在ImageNet[1]对象辨认和Switchboard[2]语音辨认方面的成功，深度学习方法被引入到NLP中。深度学习方法比统计学习方法快得多，结果好得惊人。

目前，基于神经网络的神经言语处理(以下简称神经言语处理)框架曾经达到了新的质量程度，并且曾经成为处理神经言语处理义务的次要方法，例如MT、机器阅读了解(MRC)、聊天机器人等等。例如，微软的Bible系统在2017年MT研讨会的中英旧事翻译义务中就获得了能和人媲美的结果。微软亚洲研讨院(MSRA)的R-NET和NLNet在斯坦福成绩回答数据集(小组)评价义务中，在准确婚配(EM)得分和模糊婚配(F1)得分上都获得了人机质量结果。最近，生成式预训练(GPT)[3]、来自 Transformers的双向编码器表示(BERT)[4]和XLNet[5]等预训练模型在多个NLP义务中显示了弱小的才能。神经NLP框架在有大量标记数据用于学习神经模型的监督义务中工作得很好，但在资源有限或没有标记数据的低资源义务中照旧表现不佳。
建模

NLP系统运用自然言语句子并生成一个类类型(用于分类义务)、一个标签序列(用于序列标记义务)或另一个句子(用于QA、对话、自然言语生成和MT)。要运用神经言语处理方法，需求处理以下两个关键成绩:

(1)在神经网络中对自然言语句子(词的序列)停止编码。

(2)生成一个标签序列或另一个自然言语句子。

从这两个方面，本节将引见几种常用的神经网络言语处理模型，包括字嵌入、句子嵌入和序列到序列的建模。单词嵌入将输入句子中的单词映射成延续的空间向量。

基于“嵌入”这个词,复杂网络如递归神经网络(RNNs)卷积神经网络(CNNs)和自留意力网络可以用于特征提取,思索到整个句子的上下文信息构建嵌入环境敏感词,句子的或集成一切的信息来构造句子嵌入。上下文感知词嵌入可用于序列标记义务，如词性标记（POS）和命名实体辨认（NER），句子嵌入可用于句子级义务，如心情分析和意译分类。句子嵌入也可以作为另一个RNN或自留意网络的输入，生成另一个序列，构成序列-序列建模的编解码框架。给定一个输入句子，序列到序列的建模可以用来生成一个成绩的答案（即问答义务）或翻译成另一种言语（即机器翻译义务）。

学习

目前曾经提出了新的和有效的训练算法，以优化大量的参数在深度学习模型。在训练神经网络时，常用的方法是随机梯度下降(SGD)[18]，它通常是基于[19]的反向传播方法。基于动量的SGD被提出是为了引入动量来加速训练过程。AdaGrad [20]， AdaDelta [21]， Adam [22]， RMSProp方法尝试对不同的参数运用不同的学习比率，这进一步提高了效率，波动了训练过程。当模型非常复杂时，并行训练方法被用来应用许多计算设备，甚至数百或数千台(地方处理单元、图形处理单元或现场可编程门阵列)。根据参数能否同步更新，分布式训练方法可以分为同步SGD和异步SGD。

除了普通的优化方法曾经获得的停顿外，针对特定的NLP义务提出了更好的训练方法。当大量的训练数据可用于资源丰富的义务时，运用监督学习方法，深度学习模型可以获得很好的功能。对于一些特定的义务，如具有大量并行数据的言语对(如英语和汉语)的MT，神经模型可以很好地完成，有时在共享义务中完成人的对等。

但是，在许多NLP义务中，很难获得大量的标记数据。这类义务通常被称为低资源义务，包括对稀有言语的心情分析MT。应用未标记数据对大批标记数据训练的模型停止加强，可以采用半监督学习方法。在没有任何标记数据的状况下，可以应用无监督学习方法来学习NLP模型。应用未标记数据的另一种方法是对模型停止预训练，经过迁移学习将这些模型转移到特定的义务中。除了应用义务内标记的数据，其他义务的标记数据也可以在多义务学习的协助下运用。假如没有可用的数据，可以引入人力资源来运用自动学习创建学习数据，以便在给定的预算下最大化模型的功能。

推理

神经方法在许多NLP义务中获得了良好的停顿，如MT和MRC。但是，他们照旧有一些未处理的成绩。例如，大多数神经网络模型的行为就像一个黑盒子，它从来没有告诉我们一个系统是如何以及为什么会以这种方式处理了一个成绩。此外，对于QA和对话系统这样的义务，仅仅了解输入话语的字面意义往往是不够的。为了生成正确的呼应，能够还需求外部和/或上下文知识。为了建立这种可解释的和知识驱动的系统，推理是必要的。在本文中，我们将推理定义为一种机制，它可以经过运用推理技术操作现有知识来生成未见成绩的答案。根据这一定义，推理系统(图11)应该包括两个部分:

接上去，我们用两个例子来阐明为什么推理对于NLP义务是重要的。

第一个例子是基于知识的QA义务。“比尔·盖茨的妻子是什么时分出生的？”， QA模型必须将其解析为生成答案的逻辑方式:

其中需求基于知识图谱的推理从这个成绩末尾，可以附加新的成绩，例如:“他/她的工作是什么?”，为了回答这种上下文感知的成绩，共指解析决议了他/她指的是谁。这也是一个推理的过程，需求一个常识，他只能指男人，她只能指女人。

第二个例子是一个对话义务。例如，假如一个用户说我如今很饿，更合适的回答应该是:让我向您引荐一些不错的餐馆,而不是让我引荐一些好电影给你。这也需求推理，由于对话系统应该知道饥饿会导致寻觅餐馆而不是看电影的行为。在本节的剩余部分中，我们将首先引见两种类型的知识:知识图谱和常识。接上去，我们将描画典型的推理方法，这些方法在自然言语处理范畴曾经或正在研讨。

编辑：文婧

——END——

想要获得更多数据迷信范畴相关动态，诚邀关注清华-青岛数据迷信研讨院官方微信公众平台“ 数据派THU ”。

森sam · 2020-8-24 07:04:53

我反手就是一个么么哒，不谢

21CN · 2020-8-24 21:59:32

确实不错，顶先

cs美奥口腔 · 2020-8-25 19:29:16

我反手就是一个么么哒，不谢

		自动登录	找回密码
密码			立即注册

沈向、洋周明：神经自然言语处理停顿综述：建模，学习，推理

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们