哈工大教授刘挺：自然言语处理的十个发展趋向

临时临时临时注 · 2019-8-23 12:19:56

CCAI 2017《自然言语处理的十个发展趋向》演讲实录摘编。

CCAI 2017《自然言语处理的十个发展趋向》演讲实录摘编

本文由中国人工智能大会（CCAI）投稿并经数据分析网编辑发布，作者：刘挺哈尔滨工业大学教授

趋向1：语义表示——从符号表示到分布表示

自然言语处理不断以来都是比较笼统的，都是直接用词汇和符号来表达概念。但是运用符号存在一个成绩，比如两个词，它们的词性相近但词形不婚配，计算机外部就会以为它们是两个词。举个例子，荷兰和苏格兰这两个国家名，假如我们在一个语义的空间里，用词汇与词汇组合的方法，把它表示为延续、低维、稠密的向量的话，就可以计算不同层次的言语单元之间的相似度。这种方法同时也可以被神经网络直接运用，是这个范畴的一个重要的变化。

从词汇间的组合，到短语、句子，不断到篇章，如今有很多人在做这个事，这和以前的思绪是完全不一样的。

有了这种方法之后，再用深度学习，就带来了一个很大的转变。原来我们以为自然言语处理要分成几个层次，但是就句法分析来说，它是人为定义的层次，那它是不是一定必要的？这里应该打一个问号。

实践工作中，我们面临着一个课题——信息抽取。我之前和一个单位合作，初衷是我做句法分析，然后他们在我的基础上做信息抽取，互相配合，后来他们发表了一篇论文，与初衷是相悖的，它证明了没有句法分析，也可以直接做端到端的直接的实体关系抽取，这很震撼，不是说如今句法分析没用了，而是我们以为句法分析是人为定义的层次，在端到端的数据量非常充分，可以直接停止信息抽取的时分，那么不用句法分析，也能达到相似的效果。当端到端的数据不充分时，才需求人为划分层次。

趋向2：学习形式——从浅层学习到深度学习

浅层到深层的学习形式中，浅层是分步骤走，能够每一步都用了深度学习的方法，实践上各个步骤是串接起来的。直接的深度学习是一步到位的端到端，在这个过程中，我们的确可以看到一些人为贡献的知识，包括该分几层，每层的表示方式，一些规则等，但我们所谓的知识在深度学习里所占的比重的确减小了，次要体如今对深度学习网络结构的调整。

2019年4月

谷歌团队公布了Translatotron，它是第一个可以直接完成从一种言语到另一种言语语音转换的端到端模型。它还能在翻译后的语音中保留原说话者的声响。谷歌希望这项研讨可以作为今后端到端语音翻译系统研讨的终点。

趋向3：NLP平台化——从封闭走向开放

以前我们搞研讨的，都不是很情愿分享本人的成果，像程序或是数据，如今这些材料彻底开放了，无论是学校还是大企业，都更多地提供平台。NLP范畴提供的开放平台越来越多，它的门槛也越来越降低。

语音和言语其实有很大的差别，我看法的好几位国内外的进入NLP的学者，他们发现NLP很复杂，由于像语音辨认和语音合成等只要有限的成绩，而且这些成绩定义非常明晰。但到了自然言语，要处理的成绩变得纷繁复杂，尤其是NLP和其他的范畴还会有所结合，所以成绩非常琐碎。

2019年7月

腾讯开放了自然言语处理云平台，整合了腾讯顶级NLP技术（包括 AI Lab、信息安全团队、AI平台部、翻译君和知文团队自研等等），依托于海量中文语料累积，片面覆盖了从词法、句法到篇章等各个粒度的NLP才能。

趋向4：言语知识——从人工构建到自动构建

AlphaGo告诉我们，没有围棋高手介入他的开发过程,到AlphaGo最后的版本，它曾经不怎样需求看棋谱了。所以AlphaGo在学习和运用过程中都有能够会超出人的想像，由于它并不是简单地跟人学习。

美国有一家文艺复兴公司，它做金融范畴的预测，但是这个公司不招金融范畴的人，只是招计算机、物理、数学范畴的人。这就给了我们一个启示，计算机不是跟人的顶级高手学，而是用本人已有的算法，去直接处理成绩。

但是在自然言语处理范畴，还是要有大量的显性知识的，但是构造知识的方式也在产生变化。比如，如今我们末尾用自动的方法，自动地去发现词汇与词汇之间的关系，像毛细血管一样浸透到各个方面。

2018年11月

谷歌在github上开源了其最强的NLP模型BERT。该模型在在11项NLP测试中刷新了较高成绩，甚至片面超越了人类的表现。在模型训练阶段，BERT就运用到了自动构建的方法。

趋向5：对话机器人——从通用到场景化

最近出现了各种图灵测试的翻版，就是做知识抢答赛来验证人工智能，从产学研运用下去讲就是对话机器人，非常风兴趣性和适用价值。

这块的趋向在哪里？我们知道，从Siri刚出来，国内就末尾做语音助手了，后来语音助手很快下了马，由于它可以听得到但是听不懂，导致后面的服务跟不上。后来国内把难度降低成了聊天，你不是调戏Siri吗，我就做小冰就跟你聊。但是难度降低了，适用性却跟不下去，所以在用户的留存率上，还是要打个问号。

如今更多的做法和场景结合，降低难度，然后做义务执行，即希望做特定场景时的有用的人机对话。在做人机对话的过程中，大家热情一轮比一轮高涨，但是随后大家发现，很多成绩是由于自然言语的了解没有到位，才难以产生真正的打破。

2019年

《麻省理工科技回复》发布的 “全球十大打破性技术”预测榜单中，阿里小蜜作为目前世界上用户数抢先的智能客服机器人当选。“阿里小蜜”集合了阿里巴巴集团淘宝网、天猫商城、支付宝等平台日常运用规范、买卖规则、平台公告等信息，是一个在店家服务场景下的对话机器人。

趋向6：文本了解与推理——从浅层分析向深度了解迈进

Google等都曾经推出了这样的测试机——以阅读了解作为一个深化探求自然言语了解的平台。就是说，给计算机一篇文章，让它去了解，然后人问计算机各种成绩，看计算机能否能回答，这样做是很有难度的，由于答案就在这文章外面，人会很刁钻地问计算机。所以说阅读了解是如今竞争的一个很重要的点。

2018年12月

阿里AI在MS MARCO应战赛中，经过阅读了解才能测试，创造了人工智能新纪录。这项威望比赛包含100多万个成绩和300多万篇文档，相当于参赛机构提供的人工智能模型需求阅读完维基百科中的一切文章。测试结果显示，阿里AI模型在英文阅读了解比赛中得分排名第一，接近人类了解程度。

趋向7：文本情感分析——从理想性文本到情感文本

多年以前，很多人都在做旧事范畴的理想性文本，而如今，搞情感文本分析的似乎更受群众欢迎，这一块这在商业和政府舆情上也都有很好地运用。

2018年8月

百度经过Github开放了情感分类开源项目Senta。Senta项目包含了基于语义的情感分类模型，还包含了基于大数据训练好的模型。

趋向8：社会媒体处理——从传统媒体到社交媒体

相应的，在社会媒体处理上，从传统媒体到社交媒体的过渡，情感的影响是一方面，大家还会用社交媒体做电影票房的预测，做股票的预测等等。

但是从长远的角度看，社会、人文等的学科与计算机学科的结合是历史性的。比如，在文学、历史学等学科中，有相当一部分新锐学者对本门学科的计算机的大数据非常关怀，这两者在碰撞，将来的前景是有限的，而自然言语处理是其中重要的、基础性的技术。

2019年8月

第七届社交媒体的自然言语处理国际研讨会在中国澳门举行。会议次要关注以下五个主题：社交媒体的内容分析、Web 2.0上的自然言语处理、社交媒体的情感与观点分析、运用社交媒体停止灾难管理、SocialNLP的模型和工具开发。

趋向9：文本生成——从规范文本到自在文本

文本生成这两年很火，从生成古诗词到生成旧事报道到再到写作文。这方面的研还价值是很大的，它的趋向是从生成规范性的文本到生成自在文本。比如，我们可以从数据库外面熟成一个可以模板化的体育报道，这个模板是很规范的。然后我们可以再向自在文本过渡，比如写作文。

2018年11月

新华社在第五届世界互联网大会上发布全球首个合成旧事主播——“AI合成主播”，运用最新人工智能技术，“克隆”出与真人主播拥有异样播报才能的“分身”。这不只在全球AI合成范畴完成了技术创新和打破，更是在旧事范畴创始了实时音视频与AI真人笼统合成的先河。

趋向10：NLP+行业——与范畴深度结合，为行业创造价值

最后是谈与企业的合作。如今像银行、电器、医药、司法、教育、金融等的各个范畴对NLP的需求都非常多。

我预测NLP首先是会在信息预备的充分的，并且服务方式本身就是知识和信息的范畴产生打破。还比如司法范畴，它的服务本身也有信息，它就会首先运用NLP。NLP最次要将会用在以下四个范畴，医疗、金融、教育和司法。

本文由作者 中国人工智能大会 投稿至数据分析网并经编辑发表，本文链接：https://www.afenxi.com/73155.html 。内容观点不代表本站立场，如转载请联络原作者。

动力 · 2019-8-23 19:02:59

嘘，低调。

近夸 · 2019-8-24 18:31:45

这么强,支持楼主，佩服

极品月光猪 · 2019-8-25 16:02:36

为保住菊花，这个一定得回复！

		自动登录	找回密码
密码			立即注册

哈工大教授刘挺：自然言语处理的十个发展趋向

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们