请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

复旦大学黄萱菁:自然言语处理中的表示学习


不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲身跑会,为大家奉献科技范畴最优秀的学术报告,为同窗们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新颖!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在专业工夫的知识阅读更有价值。




人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI将来说·青年学术论坛”系列讲座由中国迷信院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国迷信院大学先生会,协办单位为中国迷信院计算所研讨生会、网络中心研讨生会、人工智能学院先生会、化学工程学院先生会、公共政策与管理学院先生会、微电子学院先生会。2020年6月20日,第16期“AI将来说·青年学术论坛”NLP前沿技术及产业化线上专场论坛以“线上平台直播+微信社群图文直播”方式举行。复旦大学黄萱菁带来报告《自然言语处理中的表示学习》。

黄萱菁,复旦大学计算机迷信技术学院教授、博士生导师。1998年于复旦大学获计算机理学博士学位,研讨范畴为人工智能、自然言语处理、信息检索和社会媒体分析。兼任中国中文信息学会常务理事,社会媒体专委会副主任,中国计算机学会中文信息技术专委会副主任。在SIGIR, IEEE TKDE, ACL, ICML, IJCAI, AAAI, SCIS, CIKM, EMNLP, WSDM和COLING等多个高程度国际学术期刊和会议上发表了近百篇论文,担任的多个科研项目遭到国家自然迷信基金、科技部、教育部、上海市科委的支持。近年来担任2014年ACM 信息与知识管理会议竞赛主席,2015年ACM 互联网搜索与数据发掘会议组织者,2015年社会媒体处理大会程序委员会副主席,2016年、2019年全国计算言语学会议程序委员会副主席,2017年国际自然言语处理与中文计算会议程序委员会主席等学术职务,并当选由清华大学—中国工程院知识智能结合研讨中心和清华大学人工智能研讨院结合发布的“2020年度人工智能全球女性”及“2020年度AI 2000人工智能全球最具影响力提名学者”。




自然言语处理中的表示学习







首先,黄萱菁教授引见了言语表示学习的内容。言语表示学习是一个非常客观性的概念,可以从很多角度给一个定义。从认知迷信角度,言语表示是言语在人脑中的表现方式,关系到人们如何了解和产生言语;从人工智能角度,言语表示是言语的方式化或者数学描画,以便在计算机中表示言语,并且可以让计算机程序停止自动处理。好的文本表示是一个非常客观性的概念,需求具有很好的表示才能,比如说模型具有一定的深度;可以让后续学习义务变得简单,可以带来下游义务功能的提升;具有普通性,是义务或者范畴独立的。

早期的言语表示次要采用符号化的团圆表示,词表示为One-Hot向量,即一维为1、其他维为0的向量,比如电脑和计算机;句子或篇章经过词袋模型、TF-IDF模型、N元模型等方法停止转换。团圆表示的缺陷是词和词之间没有间隔的概念,比如电脑和计算机语义几乎相反,但是它们的One-Hot表示完全不同,这是不合理的。目前主谣言语表示采用愈加准确的数学表示,通常运用基于深度学习的表示。深度学习是机器学习的一个子范畴,传统机器学习方法通常需求人工设计的表示和特征提取方法,深度学习则不需求特征提取,甚至可以停止自动的表示学习。深度学习在自然言语处理的许多义务中都获得了严重停顿,卷积神经网络、循环神经网络、对抗神经网络等神经网络一方面可以成功运用于分词、词性标注、命名实体辨认等基本自然言语处理义务,另一方面也可以极大提升自动问答、对话等运用系统的功能。

接上去,黄萱菁教授的报告内容聚焦于表示学习,特别是语义表示。基于神经网络的表示学习是将不同粒度文本的潜在语法或语义特征分布式地存储在一组神经元中,用稠密、延续、低维的向量停止表示,这里的不同粒度包括词语、短语、句子、句对等。短语在语义层面上相似词语,结构上相似于句子,不同粒度的言语表示有不同的用途,比如词语和短语表示次要用于预训练,服务于下游义务,而句子和句对表示可以直接用于文本分类、婚配、阅读了解、语篇分析等详细义务。

词语表示学习也称词嵌入,它把词语从符号空间映射到向量空间。2013年之前,只要大批工作研讨词嵌入,包括非常有名的、Bengio提出的神经言语模型;2013年之后有了大量新工作,特别有代表性的是word2vec和glove;2016年之后出现了短暂冷却现象;2018年之后又出现大量新工作,与从前学习相对比较独立的词向量不同,新工作学习带有上下文的语境化的词向量,经典工作有Elmo和Bert,相关的两篇论文都获得了NAACL最佳论文奖。学习上下文有关的词向量的众多模型中,word2vec是最高效的算法之一,它包括两个模型,一个是延续词袋模型,用上下文信息的平均预测目的词;另一个是跳词模型,用目的词预测上下文,这两种模型都可以学习高质量的词表示。不同于word2vec,glove是由斯坦福完成的,它直接建模两个词的共现频率和该词所对应向量内积间的关系,使它们尽能够接近,作者给出不同维度、不同语料训练词向量的结果,在实践研讨过程中很有用。

短语和句子表示学习的方法是相似的,都和结构预测严密相关。几种常见的语义组合函数都可以用于从词语序列语义表示生成短语句子的表示,包括递归神经网络、卷积神经网络、循环神经网络、Transformer等等,这些方法也可以组合起来运用。





上图是卷积神经网络对句子建模的经典工作,采用双通道CNN得到句子表示,用于文本分类,经过动态Pooling机制处理句子变长的成绩。循环神经网络用于对句子停止序列化建模,为了处理序列化建模过程中出现的梯度消逝或者梯度弥散状况,先后有人提出了长短时记忆单元(LSTM)和门循环单元(GRU)。循环神经网络可以扩大为编码器-解码器的架构。其中编码器没有输入,在解码的时分则不需求新的输入;编码器用于了解,解码器用于生成,假如在解码的时分引入留意力机制,就可以进一步提升模型的功能。

接着,黄萱菁教授引见了所在项目组在短语和句子表示学习方面所做的工作,他们在句子建模方面做的一项代表性工作是基于门机制的递归神经网络。应用树结构神经网络可以获得句子树结构,他们对树结构递归神经网络停止了改进,添加门机制,希望对上下文窗口之间的相邻字词组合关系停止更为精细的建模,从字间的关系构建词间的关系,从而构建整个句子结构。





上图所示的例子“下雨天地面积水”,当前目的字是“地”,需求判别“地”是词首还是词尾。“天地”中“地”是词尾,“地面”中“地”是词首。实践上,这个句子非常复杂,任何两个相邻字都可以构成一个词。为了在给定上下文时预测“地”的标签是词尾还是词首,网络从底层到顶层,递归地停止特征组合。图中黑色是活跃神经元,空心是抑制神经元,边表示音讯传递,实线边表示接受音讯上传,虚线边表示回绝,经过这样的过程可以得到整个句子的树结构(上图中最右侧),“下雨天-地面-积水”,还可以经过把一切组合特征合并到网络中来估计树结构的得分,这种模型可以同时得到句子表示和中间结果,可用于分词、依存句法分析和句子建模等义务。

黄萱菁教授的项目组所做的另一个改进是对二叉树的改进。句子的表示可以以为是句中一切词表示的组合,递归神经网络用一棵句法树,把词按照句法树的成分结构停止不断地递归组合,最后得到整个句子的表示。但是,递归神经网络只能处理二叉树的结构,而不能方便地拓展到依存句法树。因此,他们把递归神经网络和卷积神经网络停止组合,提出了一种可以处理多叉树的递归卷积神经网络模型,引入卷积层和池化层,从而把递归神经网络拓展到依存句法树上。再进一步地,黄萱菁教授的项目组发如今自然言语处理中,虽然可以用语义组合的方式得到句子的表示,但实践上并非一切短语句子语义都是合成性的,有一些短语语义不能由成分组合得到,比如马马虎虎、九牛二虎和马、老虎、牛没有关系。所以为了提升语义结构组合才能,他们采用了树结构LSTM,基于句法树递归对句子停止建模,并引入了参数化的控制器,从而可以自顺应确定非叶节点的合成方式是合成性还是非合成性。模型分成三部分,分别是合成性非叶节点、非合成性的非叶节点和控制器。合成性非叶节点相应短语的表示,例如His performance是由子成分表示组合而来的;对于非合成性非叶节点的相应短语表示,例如at fever pitch不是由主成分得来,而是作为基本言语单位学习得到,详细则运用开关控制器控制合成的方式。





在句对表示学习方面,许多自然言语处理义务都可以建模为句对编码义务,比如句子的重述、包含分析、语篇分析等等,句子编码的目的是给定两个句子,建模其语义关系来学习表征。比如句子的包含分析,需求预测文本和假设之间是什么关系,如包含关系、中立关系、矛盾关系等等。黄萱菁教授的项目组在句对表示学习方面所做的工作是对语篇关系停止检测,即检测篇章中句子间的关系。以两个句子为例,一个发生在Early in the morning,另外一个发生在mid morning,它们之间是承接关系。用词向量差值可以表现句间关系,把两个句子的一切词两两做词向量的差值可以得到位移矩阵。经过位移矩阵可以预测句间关系,比如承接关系对应的矩阵中有大量平行箭头。另外,由于矩阵大小随句子长度变化,所以引入Fisher Vector的方法,把矩阵转变为定长向量,停止语篇关系分类。同时,项目组还应用门机制组合多种句子婚配函数,采用双向LSTM表示句中的词语,每个词语所对应的LSTM隐形状就表征词语和上下文。为了度量隐形状之间的相关性,项目组提出门相关性网络,它可以组合许多婚配函数,比如双线性张量和单层神经网络。

之后黄萱菁教授引见了近期研讨趋向,包括模型层面研讨趋向、学习层面研讨趋向、了解和解释层面的研讨趋向。

模型层面包括图神经网络和Transformer。真实数据场景中,许多数据结构无法采用现有神经网络表示,比如社交网络、蛋白质交互关系、互联网等等。为了对这类图结构数据停止建模,研讨者们提出图神经网络,它可以建模节点之间的语义关系、语义关联,可以很灵敏地对结构化数据停止表示学习。把图神经网络用在言语表示的思绪是定义或者学习一个句子的图结构,并且在图神经网络节点中加上上下文特征。句子结构可以用三种方式表示,分别是序列结构、句法树结构、义务相关语义结构,没有单一结构可以表示一切义务。黄萱菁教授的项目组把Transformer的自留意力机制扩展到图神经网络,提出语境化非部分网络,使得不同义务动态学习结构,它既可以学习节点和边的属性,对它停止编码,也可以学习节点之间的连边。这两点使得他们可以根据词语语境化表示和句子复杂结构更好地学习句子表示。Transformer是这几年最火的概念,它是全自留意力的机制,完全取代了神经网络中的经典合成函数,在各种义务上都获得了非常好的结果,它的成功可以归因于非部分结构偏置,句中任何一对词的依存关系都可以被建模。经过摒弃复杂语义组合和运用非部分结构偏置,Transformer可以提供更有效的计算,为Bert等模型打下基础,也有很好的可扩展性。但Transformer有一些缺陷,例如两两之间计算开支非常大,和文本长度的平方呈反比,所以它需求大规模训练数据。黄萱菁教授的项目组提出了轻量化版本的星型Transformer,把全衔接结构改成星型结构,任何两个节点都可以经过中继节点相连,这样模型的复杂度就从平方变成了线性,异样可以经过中继节点处理长间隔依赖,经过圆环上的弧处理部分依赖。由于引入了部分依赖,就不再需求Position Embedding,由于复杂度降低可以适用于小规模和中等规模的数据。

学习层面近期研讨趋向包括元学习、多义务学习、迁移学习等。在处理言语合成性时,假如采用同一个不变参数建模言语合成性,将无法捕捉合成的丰富性并且降低言语表现力;假如为每种合成策略分配独立的函数,但这些函数是硬编码的,就添加了复杂度,会惹起数据稀疏。黄萱菁教授的项目组采用元学习的处理方案,他们不是直接采用可学习的参数化合成函数而是引入元神经网络,元神经网络可以动态生成真正用于组合树结构的基网络参数,从而扩展了模型表现力。多义务学习是一种结合多个义务同时学习来加强模型表示和泛化才能的手腕。黄萱菁教授引见了他们组一篇经过整合来自多个分词标准共享知识的论文,论文提出基于对抗策略的多标准学习方法,详细是把每个分词标准当成一个义务,在多义务学习框架下提出了三种共享和公有模型,平行形式、叠加形式和组合形式。黄色共享层用于提取不变特征,灰色公有层提取不同分词标准的公有特征。进一步地,应用对抗策略,从而可以确保共享层可以提取一切分词标准的不变特征,要求共享层不能预测出分词详细用哪一个标准语料库。迁移学习包括两个阶段,第一阶段是学习可迁移的知识,第二阶段是把知识迁移到新的义务。可迁移的知识可以经过监督学习或者无监督学习方式得到。无监督学习愈加抢手更受注重,先经过无监督方式学习可迁移的知识表示,再把知识迁移给新义务。预训练模型普遍采用无监督学习,其中ELMo采用双向LSTM;GPT初次用transformer decoder来停止预训练,decoder相当于是单向的言语模型,等于mask掉当前和后面的词;BERT是双向的言语模型,为了让预测的时分待预测词看不到本人,它引入了mask language model,随机mask待预测的词,再用双向言语模型预测这些词。预训练模型以ELMo为末尾,以BERT为发展高潮,之后出现了非常多新的模型,这些模型逐渐发展,训练语料越来越大、参数数量越来越多、表现功能越来越高。往年他们组的一篇期刊文章对预训练模型停止了分类,按照能否语境化可以分为静态和动态模型,按照模型架构可以分成LSTM、Transformer Decoder、Transformer Encoder、残缺的Transformer;根据学习义务来分,分成基于监督学习的模型,比如CoVe,和更多基于无监督或者自监督的预训练模型。

最后黄萱菁教授简单总结了当前自然言语处理研讨面临的困境。许多NLP竞赛成绩增长越来越慢,表明NLP系统功能趋于平台化,接上去神经网络NLP该往何处去?模型的可解释性将变得越来越重要,如今许多模型有着优越的功能,但是可解释性很低,假如不了解其中优缺陷,很难在各种场景下做出最佳的选择。近期一些研讨从可解释性角度对自然言语处理停止研讨,可解释性包括面向模型可解释性和义务可解释性。面向模型的可解释性可以从认知角度、言语学角度看模型编码了哪些言语学特征,人类神经机理有什么相似程度;义务角度可以给定一个义务例如抽取式摘要、命名实体辨认,研讨模型的组成部分,了解不同设置下模型各自顺应场景是什么,掌握怎样样进一步提高现有模型有效方向等。




AI将来说*青年学术论坛




第一期 数据发掘专场

1. 李国杰院士:感性看法人工智能的“头雁”作用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习实际及运用

4. 瑞莱智慧刘强博士:深度学习时代的个性化引荐

5. 清华柴成亮博士:基于人机协作的数据管理


第二期 自然言语处理专场

1. 中科院张家俊:面向自然言语生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化运用与成绩讨论

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实际

5. 哈工大刘一佳:经过句法分析看上下文相关词向量


第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与运用

2. 清华鲁继文:深度强化学习与视觉内容了解

3. 百度李颖超:百度加强理想技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探求

5. 港中文李弘扬 :物体检测最新停顿


第四期 语音技术专场

1. 中科院陶建华:语音技术现状与将来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于结合对抗加强训练的鲁棒性端到端语音辨认


第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 北方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机迷信中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精细测量

5. 百度段润尧:量子架构——机遇与应战


第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研讨及运用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与运用实际

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning


第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 应战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术


第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目的检测

3. 中科院付鹏:深度学习与机器阅读


第九期 个性化内容引荐专场

1. 人民大学赵鑫:基于知识与推理的序列化引荐技术研讨

2. 中科院赵军:知识图谱关键技术及其在引荐系统中的运用


第十期 视频了解与引荐专场

1. 北京大学袁晓如:智能数据可视分析


第十一期 信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法

2. 人民大学徐君:智能搜索中的排序-打破概率排序准绳

3. 百度周景博:POI知识图谱的构建及运用

4. 百度宋勋超:百度大规模知识图谱构建及智能运用

5. 百度冯知凡:基于知识图谱的多模认知技术及智能运用


第十二期 年度特别专场

1. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络言语的桥梁

2. 清华大学董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC罗宇男:AI-assisted Scientific Discovery

4. 斯坦福应智韬:Graph Neural Network Applications


第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及:信息技术助力新冠防控

2. 北京大学王亚沙:新冠肺炎传播预测模型

3. 百度黄际洲:时空大数据与AI助力抗击疫情——百度地图的实际与思索

4. 百度张传明:疫情下的“活”导航是如何炼成的


第十四期 深度学习线上专场

1. 中国迷信院徐俊刚:自动深度学习解读

2. 北航孙钰:昆虫目的检测技术

3. 百度尤晓赫:EasyDL,加速企业AI转型

4. 百度邓凯鹏:飞桨视觉技术解析与运用


第十五期 大数据线上专场

1. 复旦赵卫东:大数据的系统观

2. 中科大徐童:AI×Talent数据驱动的智能人才计算

3. 百度李伟彬:基于PGL的图神经网络基线系统

4. 中科大张乐:基于人才活动表征的企业竞争力分





留言点赞关注

我们一同分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

truesteven 2020-6-24 17:21:24 显示全部楼层
……
回复

使用道具 举报

生卋劫 2020-6-25 21:22:38 来自手机 显示全部楼层
佩服佩服!
回复

使用道具 举报

分梨各一半 2020-6-26 14:31:02 显示全部楼层
啊啊啊啊啊啊啊啊啊啊啊
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies