「回顾」自然言语处理中的多义务学习

愤怒的小鸡． · 2018-12-13 11:41:56

分享嘉宾：邱锡鹏复旦大学计算机迷信技术学院副教授，博士生导师编辑整理：靳韡赟内容来源：DataFun AI Talk《自然言语处理中的多义务学习》出品社区：DataFun

本次报告内容的标题是自然言语处理中的多义务学习，报告次要分为四个部分：
1、基于深度学习的自然言语处理；
2、深度学习在自然言语处理中的困境；
3、自然言语处理中的多义务学习；
4、新的多义务基准平台。
首先简单引见一下实验室状况，课题组次要聚焦于深度学习与自然言语处理范畴，包括言语表示学习、词法/句法分析、文本推理、问答系统等方面。开源自然言语处理系统FudanNLP，并将在12月中旬推出全新的NLP系统：fastNLP。

一、自然言语处理简介
自然言语处理就像人类言语一样，与人工言语的区别在于它是程序文语，自然言语处理包括语音辨认、自然言语了解、自然言语生成、人机交互以及所触及的中间阶段。下面罗列出了自然言语处理的基础技术、核心技术和一些运用：
基础技术：词法分析、句法分析、实体辨认、语义分析、篇章分析、言语模型；
核心技术：机器翻译、自动问答、情感分析、信息抽取、文本摘要、文本包含；
运用：智能客服、搜索引擎、个人助理、引荐系统、舆情分析、知识图谱。
自然言语处理最后由规则驱动，逐渐发展为数据驱动。

二、深度学习在自然言语处理中的困境
由于短少大规模的标注数据或者标注代价太高，目前大部分用在NLP上的神经网络都不是很深，普通状况下，一层LSTM+Attention就足够完成大部分NLP义务。处理成绩的方法包括有无监督预训练、多义务学习和迁移学习。明天我们次要引见多义务学习。

1、无监督预训练
首先我们来引见一下NLP中非常重要的无监督预训练，早期有很多研讨者运用词向量等词级别的模型，后来发展为运用句子级别的模型，例如最近出现的ELMo、OpenAI GPT、BERT等，人们从最后学习更好的词的表示转变为学习更好的句子的表示。

论文Deep Contextualized Word Representations次要描画的是ELMo成绩，经过建立两个双向的LSTM来预测一个前向、正向的言语模型，然后将它们拼起来，这个模型是一个非常好的迁移模型。

谷歌新推出的BERT是将机器翻译中的常用模型transformer的双向训练用于建模，它在很多义务中获得了较好的效果。

这些模型证明在NLP中表示学习依然非常重要，表示学习是从文本输入到计算机外部的一种表示，对于NLP义务，表示学习是指将语义信息表示成稠密、低维的实值向量。表示好之后送到分类器中，好的表示是一个非常客观的概念，没有一个明白的标准。普通而言，好的表示具有以下几个优点：
1）应该具有很强的表示才能，模型需求一定的深度；
2）应该使后续的学习义务变得简单；
3）应该具有普通性，是义务或范畴独立的。

2、多义务学习
下面给出一个多义务学习的例子，对于两个单独的义务训练两个模型，对于义务1训练一个模型1，对于义务2训练一个模型2，多义务就是将两个义务放在一同用一个模型来处理。

多义务学习最早在97年被提出，多义务学习隐含着从其他义务中学习一种共享的表示，共享表示可以作为一种归纳偏置，归纳偏置可以看做是对成绩相关的阅历数据停止分析，从中归纳出反映成绩本质的模型的过程，不同的学习算法（决策树、神经网络、支持向量机）具有不同的归纳偏置，在学习不同的义务过程中运用共享表示，可以使在某个义务中学习到的内容可以协助其他义务学习的更好。

由于传统NLP的表示空间是团圆的，MTL+NLP在传统的NLP模型是非常难完成的，随着深度学习的运用，整个NLP的表示空间变为延续的，使得义务虚现愈加容易。例如下图中taskA和taskB两个义务可以共享同一个模型。

不同窗习范式之间的关系：多义务学习之上有迁移学习，之下有多标签学习和多类学习。

损失函数：假设有m个义务，多义务学习的损失函数是将各个义务的损失函数相加求得结合损失函数joint loss。

训练方式：首先停止Joint Ttaining，Training之后停止Fine Tunning。

多义务学习工作的优点：
1）隐式的数据加强：一个义务的数据量相对较少，而完成多个义务时数据量就得到了扩大，隐含的做了一个数据共享。
2）更好的表示学习：一个好的表示需求可以提高多个义务的功能。
3）正则化：共享参数在一定程度上弱化了网络才能，防止过拟合。
4）窃听：某个特征很容易被义务A学习，但是难以被另一个义务B学习，这能够是由于B以更复杂的方式与特征停止交互或者由于其它特征妨碍了模型学习该特征的才能。经过MTL，我们可以允许模型窃听，即经过义务A来学习该特征。
目前NLP中每个义务只做其中的一块，假如我们把这些义务拼起来会获得更好的效果。
三、自然言语处理中的多义务学习
下面引见几种多义务学习的方式，传统的自然言语处理在输入端输入文本，之后停止词法分析和句法分析最后完成义务，这种方式很难完成，在有了多义务学习之后，不同的义务可以共享词法分析和句法分析模块，自然言语处理的方式得到了简化。

自然言语中的多义务学习包括有：多范畴义务、多级义务、多言语义务、多模态义务等。

深度学习+多义务学习有硬共享、软共享、共享-公有等多种形式。
硬共享形式：在下面层共享，下层根据本人不同的义务做不同的设计；
软共享形式：每个义务都有本人的流程，从信息流来看就是从输入到A有本人的体系流程，还可以从其他义务的表示方法中拿一些东西过来；
共享-公有形式：一部分共享，一部分公有的信息传递机制。

此外还有多级共享、函数共享、主辅共享等多种共享形式，下面将逐一引见。

1、硬共享形式
硬共享在下面层共享，下面根据本人的不同的义务来做不同的设计，这种方法最早在2008年由Ronan Collobert在论文A Unified Architecture for Natural Language Processing：Deep Neural Networks with Multitask Learning中提出，运用到了很多与语义相关和语法相关的方面，例如机器翻译、文本分类等。

后来人们将留意力机制模型用于共享形式，留意力机制不需求运用一切的信息，只需求将其中部分信息选择出来，人们基于留意力机制做了共享形式。

原来的多义务学习如图a所示，下面的s是共享层，p是不同义务本人的设计。如今我们将原有的算法转换大图c的方式，一切的表示函数共享，在输入到详细义务的时分运用一个和义务相关的查询Q去s中选择义务相关的信息。虽然表示方式是一样的，但是针对不同的详细义务，会根据每个义务关注点的不同来选择相应的信息。
2、软共享形式
在软共享形式中没有严厉规定共享层。经典网络cross-stitch结构中，下面是taskA，下面是taskB，在中间部分两个义务有交互，α是权重系数，表示taskA中有多少信息从本身流过来，有多少信息从taskB中流过来，这样两个义务就由两路，四个系数构成一个矩阵做权重组合，假如用到神经网络就相似于下图中左边的这种方式，这种网络最后运用于机器视觉范畴，后来被人们用于NLP。

3、共享-公有形式
在共享-公有形式中部分网络模块在一切的义务中是共享的，经过设置外部记忆共享机制来完成信息共享，神经图灵机就是在神经网络中引入一个memory模块，整个框架就是用神经网络完成的一个控制器，加读写头和外部输入。图灵机全部由神经网络搭建而成。

基于神经图灵机的想法我们可以做一个多义务学习，每个义务我们都可以看做是一个单独的图灵机，外部的memory在一切的义务中共享。在下图中M是外部记忆，外部记忆由两个义务共享，每个义务都会把共享信息写到外部记忆中，这是一种非常简单的共享方式。

为了避免上图中的负迁移negative transfer，就需求判别哪些内容是和义务相关的，这就引入了近两年盛行的对抗学习，在对抗学习中，中间的LSTM共享层有一个判决器来区分共享特征从哪个义务传递过来，在送入LSTM之前会包含有特征的来源信息。因此我们希望训练一个和判决器对抗的网络，在共享的LSTM层中尽能够让判决器不能区分义务来源。这样就去掉了特征的源信息，保证了共享LSTM学到的是与源有关的共享价值信息，这些叫做对抗信息。
下面我们将引见几种将来研讨的方向：
1、函数共享形式
之前我们了解的多义务学习都是特征共享，在函数共享中我们学的不再是共享特征而是共享函数，来生成一些参数或模型，这里我们将feature级的共享迁移到函数级的共享，下图中第一幅图图是特征共享，中间蓝色的是共享层，它将学到的特征送到上下两个义务中，第二幅图是函数共享，函数共享中共享层的输入不是直接送到上下两个分类器中，而是决议了上下两个分类器的参数。经过修正分类器来有效应用这些信息。

2、多级共享形式
2016年Anders Sфgaard等人在论文Deep Multi-task Learning with Low Levels Tasks Supervised at Lower Layers中提出在低级的网络层次输入低级的义务，在高级的网络层次输入高级的义务。例如在第一层输入词性标签POS tag，在第三层输入chunk tag，将NLP义务按照不同的级别来设计共享形式。

3、主辅义务形式
在做任何一个次要义务的同时都可以引入一个辅助义务。如下图，我们对每个义务引入一个辅助的言语模型，每个义务都运用左右两个言语模型，对一切义务停止这种拓展就构成了主辅义务形式。

4、共享形式搜索
共享形式搜索是让计算机自动搜索这些共享形式，详细做法如图d所示，我们希望设计一种灵敏的框架，在共享池中放入很多不同的模块，每个义务在完成过程中可以从共享池中挑选一些模块来组装本人的guideline。示例中义务A挑选了4、3、1，义务B挑选了3、2、1，这就隐含了A从M4出来，而B从M3出来，C从M2出来，这样一种层次化的共享形式设计。它本身也可以完成hard和soft的两种表示方式，因此是一种非常灵敏的表示方式。

在面向NLP的神经网络架构搜索中，从共享池中挑选Ma1，Ma2等模块来组成不同的模型，将模型带入义务中去训练，得到正确率作为reward反馈给分类器从而选择更合适的组合方式来完成义务。

下面给出的例子就是对不同的义务挑选的不同的组合方式，其中有些组合方式非常相似。

四、新的多义务基准平台
首先引见一下机器阅读了解，机器阅读了解是在阅读一篇或多篇文档后，回答一些相关成绩。由机器来生成答案，答案能够在原文中出现也能够不在原文中出现，目前机器阅读了解大部分都假设答案在原文中出现，我们用的一个次要框架是Biderectional Attention，同时给你context和query，做一个双向的留意力交互，最终确定两个地位，一个是答案末尾的地位，一个是答案结束的地位，大部分的成绩都可以经过这个框架来处理，这个框架具有通用性。几乎NLP一切义务都可以转化成阅读了解义务经过该框架处理和完成。

往年新发布的一个NLP通用的多义务学习系统叫做十项全能，选取了十个典型的NLP义务转化成阅读了解的方式，例如左下角的情感分类成绩，将这些义务转换到阅读了解成绩后采用Biderectional Attention框架去处理。由于这些成绩的答案不一定出如今背景文档中，因此需求对Biderectional Attention框架停止改进。

还有一个较大的框架是GLUE，也是将很多NLP义务转化成一个一致的方式。下图中是三个义务：单个句子义务、计算两个句子相似度、表示两个句子之间的包含关系。这些义务都可以做成encoder和decoder形式。

五、总结
最后，我们对明天引见的内容做一个总结。明天次要引见了自然言语处理简介、基于深度学习的自然言语处理、深度学习在自然言语处理中的困境、多义务学习和新的多义务基准平台。总的来说多义务学习的难度会比迁移训练低而效果比预训练要高一些。

另外，在往年12月中旬，我们将发布一个模块化的开源自然言语工具fastNLP。

这个工具包括Spacy高级接口、AllenNLP自定义模块、AutoML自动调参。将训练好的模型开放出来供大家直接调用。

为完成模块化，我们将NLP分为四个构成组件：
1、编码器：将输入编码为一些笼统表示，输入的是单词序列，输入是向量序列；
2、交互器：使表示中的信息互相交互，输入的是向量序列，输入的也是向量序列；
3、聚合器：聚合信息，输入向量序列，输入一个向量；
4、解码器：将表示解码为输入，输入一个标签或者输入标签序列。

这里我们给出了两个示例，分别是文本分类和序列标注。

可以运用的场景次要包括：
1、直接调用；
2、模型开发；
3、自动化学习。

配套PPT下载，请辨认底部二维码关注社区公众号，后台回复【上海NLP】
作者引见：
邱锡鹏，复旦大学计算机迷信技术学院副教授，博士生导师，于复旦大学获得理学学士和博士学位。中国中文信息学会青年工作委员会执委、计算言语学专委会委员、中国人工智能学会青年工作委员会常务委员、自然言语了解专委会委员。次要研讨范畴包括人工智能、机器学习、深度学习、自然言语处理等，并且在上述范畴的顶级期刊、会议（ACL/EMNLP/IJCAI/AAAI等）上发表过50余篇论文。自然言语处理开源工具FudanNLP作者，2015年当选首届中国科协青年人才托举工程，2017年ACL杰出论文奖。
——END——

nepvnes51685 · 2018-12-13 12:30:53

上海nlp

山海广夫 · 2018-12-13 12:42:30

分享了

开一爸母 · 2018-12-13 13:27:31

3wingsun34 · 2018-12-14 07:03:30

支持支持再支持

		自动登录	找回密码
密码			立即注册

「回顾」自然言语处理中的多义务学习

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们