找回密码
 立即注册
搜索

清华与中国工程院知识智能结合实验室「自然言语处理研讨报告」

机器之心整理,参与:李亚洲、思源。

自然言语处理是古代技术最重要的组成部分之一,而最近清华大学和中国工程院知识智能结合实验室发布一份非常片面的 NLP 报告。该报告从 NLP 的概念引见、研讨与运用状况、专家学者概要以及发展趋向这 5 个方向纵览了这一范畴的当下与将来,机器之心简要引见了该报的概要信息,但读者可以从这些方面纵览 NLP 的发展相貌,残缺内容请下载查看原报告。大家可关注微信公众号「学术头条(ID:SciTouTiao)」了解更多AMiner研讨报告。




根据 AMiner 研讨报告的摘要所述,分析师们次要从以下五个方向六大章节梳理自然言语处理的发展状况:
    自然言语处理概念。首先对自然言语处理停止定义,接着对自然言语的发展历程停止了梳理,对我国自然言语处理现状停止了简单引见,对自然言语处理业界状况停止引见。自然言语处理研讨状况。根据 2016 年中文信息学会发布的中文信息处理发展报告对自然言语处理研讨中的重要技术停止引见。自然言语处理范畴专家引见。应用 AMiner 大数据对自然言语处理范畴专家停止深化发掘,对国内外自然言语处理知名实验室及其次要担任人停止引见。自然言语处理的运用及趋向预测。自然言语处理在理想生活中运用广泛,目前的运用集中在言语学、数据处理、认知迷信以及言语工程等范畴,在引见相关运用的基础上,对机器翻译将来的发展趋向做出了相应的预测。

1 概述篇

在概述篇中,该报告重点引见了自然言语处理的概念、发展历程、我国 NLP 目前的发展状况和业界的研讨与运用。

1.1 自然言语处理概念

自然言语是指汉语、英语、法语等人们日常运用的言语,是自但是然的随着人类社会发 展演化而来的言语,而不是天然的言语,它是人类学习生活的重要工具。概括说来,自然语 言是指人类社会商定俗成的,区别于人工言语,如程序设计的言语。

自然言语处理,是指用计算机对自然言语的形、音、 义等信息停止处理,即对字、词、句、篇章的输入、输入、辨认、分析、了解、生成等的操作和加工。完成人机间的信息交流,是人工智能界、计算机迷信和言语学界所共同关注的重要成绩。自然言语处理的详细表现方式包括机器翻译、文本摘要、文本分类、文本校正、信息抽取、语音合成、语音辨认等。可以说,自然言语处理就是要计算机了解自然言语,自然言语处理机制触及两个流程,包括自然言语了解和自然言语生成。




1.2 自然言语处理发展历程

自然言语处理是包括了计算机迷信、言语学心思认知学等一系列学科的一门交叉学科,这些学科性质不同但又彼此互相交叉。因此,梳理自然言语处理的发展历程对于我们更好地了解自然言语处理这一学科有着重要的意义。




从 2008 年到如今,在图像辨认和语音辨认范畴的成果激励下,人们也逐渐末尾引入深度学习来做自然言语处理研讨,由最后的词向量到 2013 年 word2vec,将深度学习与自然言语处理的结合推向了高潮,并在机器翻译、问答系统、阅读了解等范畴获得了一定成功。深 度学习是一个多层的神经网络,从输入层末尾经过逐层非线性的变化得到输入。从输入到输入做端到端的训练。把输入到输入对的数据预备好,设计并训练一个神经网络,即可执行预想的义务。RNN 曾经是自然言语护理最常用的方法之一,GRU、LSTM 等模型相继引发了一轮又一轮的热潮。

1.3 我国自然言语处理现状

目前自然言语处理的研讨可以分为基础性研讨和运用性研讨两部分,语音和文本是两类 研讨的重点。基础性研讨次要触及言语学、数学、计算机学科等范畴,相对应的技术有消弭歧义、语法方式化等。运用性研讨则次要集中在一些运用自然言语处理的范畴,例如信息检索、文本分类、机器翻译等。由于我国基础实际即机器翻译的研讨起步较早,且基础实际研讨是任何运用的实际基础,所以语法、句法、语义分析等基础性研讨历来是研讨的重点,而且随着互联网网络技术的发展,智能检索类研讨近年来也逐渐升温。

1.4 自然言语处理业界发展




1. Google

Google 是最早末尾研讨自然言语处理技术的团队之一,作为一个以搜索为核心的公司,Google 对自然言语处理更为注重。Google 拥有着海量数据,可以搭建丰富庞大的数据库,可以为其研讨提供弱小的数据支撑。Google 对自然言语处理的研讨侧重于运用规模、跨言语和跨范畴的算法,其成果在 Google 的许多方面都被运用,提升了用户在搜索、移动、运用、广告、翻译等方面的体验。

2. 百度

百度自然言语处理部是百度最早成立的部门之一,研讨触及深度问答、阅读了解、智能 写作、对话系统、机器翻译、语义计算、言语分析、知识发掘、个性化、反馈学习等。其中,百度自然言语处理在深度问答方向经过多年打磨,积累了问句了解、答案抽取、观点分析与 聚合等方面的一整套技术方案,目前曾经在搜索、度秘等多个产品中完成运用。篇章了解经过篇章结构分析、主体分析、内容标签、情感分析等关键技术完成对文本内容的了解,目前,篇章了解的关键技术曾经在搜索、资讯流、糯米等产品中完成运用。百度翻译目前支持全球 28 种言语,覆盖 756 个翻译方向,支持文本、语音、图像等翻译功能,并提供精准人工翻 译服务,满足不同场景下的翻译需求,在多项翻译技术获得严重打破,发布了世界上首个线 上神经网络翻译系统。

3. 阿里巴巴

阿里自然言语处理为其产品服务,在电商平台中构建知识图谱完成智能导购,同时停止全网用户兴味发掘,在客服场景中也运用自然言语处理技术打造机器人客服,例如蚂蚁金融智能小宝、淘宝卖家的辅助工具千牛插件等,同时停止语音辨认以及后续分析。阿里的机器翻译次要与其国家化电商的规划相联络,可以停止商品信息翻译、广告关键词翻译、买家采 购需求以及即时通讯翻译等,语种覆盖中文、荷兰语、希伯来语等语种,2017 年终阿里正式 上线了自主开发的神经网络翻译系统,进一步提升了其翻译质量。

4. 腾讯

AI Lab 是腾讯的人工智能实验室,研讨范畴包括计算机视觉、语音辨认、自然言语处理、机器学习等。其研发的腾讯文智自然言语处理基于并行计算、分布式爬虫系统,结合独特的语义分析技术,可满足自然言语处理、转码、抽取、数据抓取等需求,同时,基于文智 API 还可以完成搜索、引荐、舆情、发掘等功能。在机器翻译方面,2017 年腾讯宣布翻译君 上线「同声传译」新功能,用户边说边翻的需求得到满足,语音辨认+NMT 等技术的运用保证了边说边翻的速度与精准性。

除此之外,该报告还引见了微软亚洲研讨院、Facebook、京东和科大讯飞等在 NLP 方面有非常多研讨与运用的机构。

2 技术篇

自然言语处理的研讨范畴极为广泛,各种分类方式层出不穷,各有其合感性,我们按照中国中文信息学会 2016 年发布的《中文信息处理发展报告》,将自然言语处理的研讨领 域和技术停止以下分类,并选取其中部分停止引见。
    基础技术:词法与句法分析、语义分析、语篇分析、知识图谱、言语认知模型、言语知识表示和深度学习运用技术:机器翻译、信息检索、情感分析、自动问答、自动文摘、信息抽取、信息引荐与过滤、文本分类与聚类、文字辨认

2.1 自然言语处理基础技术

自然言语的基础技术包括词汇、短语、 句子和篇章级别的表示,以及分词、句法分析和语义分析以及言语认知模型和知识图谱等。

2.1.1 词法、句法及语义分析

词法分析的次要义务是词性标注和词义标注。词性是词汇的基本属性,词性标注就是在 给定句子中判别每个词的语法范畴,确定其词性并停止标注。处理兼类词和确定未登录词的 词性成绩是标注的重点。停止词性标注通常有基于规则和基于统计的两种方法。一个多义词往往可以表达多个意义,但其意义在详细的语境中又是确定的,词义标注的重点就是处理如何确定多义词在详细语境中的义项成绩。标注过程中,通常是先确定语境,再明白词义,方 法和词性标注相似,有基于规则和基于统计的做法。

判别句子的句法结构和组成句子的各成分,明白它们之间的互相关系是句法分析的次要义务。句法分析通常有完全句法分析和浅层句法分析两种,完全句法分析是经过一系列的句法分析过程最终得到一个句子的残缺的句法树。句法分析方法也分为基于规则和基于统计的

方法,基于统计的方法是目前的主流方法,概率上下文有关文法用的较多。完全句法分析存 在两个难点,一是词性歧义;二是搜索空间太大,通常是句子中词的个数 n 的指数级。浅层句法分析又叫部分句法分析或语块分析,它只需求辨认出句子中某些结构相对简单的成分如 动词短语、非递归的名词短语等,这些结构被称为语块。普通来说,浅层语法分析会完成语块的辨认和分析、语块之间依存关系的分析两个义务,其中语块的辨认和分析是浅层语法分析的次要义务。

语义分析是指根据句子的句法结构和句子中每个虚词的词义推导出来可以反映这个句 子意义的某种方式化表示,将人类可以了解的自然言语转化为计算机可以了解的方式言语。句子的分析与处理过程,有的采用「先句法后语义」的方法,但「句法语义一体化」的策略 还是占据主流地位。语义分析技术目前还不是非常成熟,运用统计方法获取语义信息的研讨颇受关注,常见的有词义消歧和浅层语义分析。

自然言语处理的基础研讨还包括语用语境和篇章分析。语用是指人对言语的详细运用,研讨和分析言语运用者的真正意图,它与语境、言语运用者的知识涵养、言语行为、想法和 意图是分不开的,是对自然言语的深层了解。情形语境和文明语境是语境分析次要触及的方 面,篇章分析则是将研讨扩展到句子的界限之外,对段落和整篇文章停止了解和分析。

除此之外,自然言语的基础研讨还触及词义消歧、指代消解、命名实体辨认等方面的研 究。

2.1.2 知识图谱

知识图谱,是为了表示知识,描画客观世界的概念、实体、事情等之间关系的一种表示 方式。这一概念的来源可以追溯至语义网络——提出于 20 世纪五六十年代的一种知识表示 方式。语义网络由许多个「节点」和「边」组成,这些「节点」和「边」互相衔接,「节点」表示的是概念或对象,「边」表示各个节点之间的关系。




知识图谱在表现方式上与语义网络比较相似,不同的是,语义网络侧重于表示概念与概 念之间的关系,而知识图谱更侧重于表述实体之间的关系。如今的知识网络被用来泛指大规 模的知识库,知识图谱中包含的节点有以下几种:
    实体:指独立存在且具有某种区别性的事物。如一个人、一种动物、一个国家、一种植物等。语义类:具有同种特性的实体构成的集合,如人类、动物、国家、植物等。内容:通常是实体和语义类的名字、描画、解释等,变现方式普通有文本、图像、音视 频等。属性(值):次要指对象指定属性的值,不同的属性类型对应于不同类型属性的边。关系:在知识图谱上,表现方式是一个将节点(实体、语义类、属性值)映射到布尔值 的函数。

知识图谱表示、构建和运用触及很多学科,是一项综合的复杂技术。知识图谱技术既涉 及自然言语处理中的各项技术,从浅层的文本向量表示、到句法和语义结构表示被适用于资源内容的表示中,分词和词性标注、命名实体辨认、句法语义结构分析、指代分析等技术被 运用于自然言语处理中。同时,知识图谱的研讨也促进了自然言语处理技术的研讨,基于知 识图谱的词义排岐和语义依存关系分析等知识驱动的自然言语处理技术得以建立。

2.2 自然言语处理运用技术

2.2.1 机器翻译

机器翻译(Machine Translation)是指运用机器,经过特定的计算机程序将一种书写方式 或声响方式的自然言语,翻译成另一种书写方式或声响方式的自然言语。机器翻译是一门交 叉学科(边缘学科),组成它的三门子学科分别是计算机言语学、人工智能和数理逻辑,各 自建立在言语学、计算机迷信和数学的基础之上。

目前,文本翻译最为主流的工作方式依然是以传统的统计机器翻译和神经网络翻译为主。Google、Microsoft 与国内的百度、有道等公司都为用户提供了收费的在线多言语翻译系统。速度快、成本低是文本翻译的次要特点,而且运用广泛,不同行业都可以采用相应的专业翻译。但是,这一翻译过程是机械的和僵硬的,在翻译过程中会出现很多语义语境上的成绩,照旧需求人工翻译来停止补充。

语音翻译能够是目前机器翻译中比较富有创新意思的范畴,搜狗推出的机器同传 技术次要在会议场景出现,演讲者的语音实时转换成文本,并且停止同步翻译,低延迟显示 翻译结果,希望可以取代人工同传,完成不同言语人们低成本的有效交流。

图像翻译也有不小的停顿。谷歌、微软、Facebook 和百度均拥有可以让用户搜索或者自动整理没有辨认标签照片的技术。除此之外还有视频翻译和 VR 翻译也在逐渐运用中,但是目前的运用还不太成熟。

2.2.2 信息检索

信息检索是从相关文档集合中查找用户所需信息的过程。信息检索的基本原理是将用户输入的检索关键词与数据库 中的标引词停止对比,当二者婚配成功时,检索成功。

以谷歌为代表的「关键词查询+选择性阅读」交互方式,用户用简单的关键词作为查询 提交给搜索引擎,搜索引擎并非直接把检索目的页面反馈给用户,而是提供给用户一个能够 的检索目的页面列表,用户阅读该列表并从中选择出可以满足其信息需求的页面加以阅读。

2.2.4 自动问答

自动问答是指应用计算机自动回答用户所提出的成绩以满足用户知识需求的义务。自动问答系统在回答用户成绩时,首先要正确了解用户所提出的成绩,抽取其中关键的信息,在已有的语料库或者知识库中停止检索、婚配,将获取的答案反馈给用户。这一过程 触及了包括词法句法语义分析的基础技术,以及信息检索、知识工程、文本生成等多项技术。

根据目的数据源的不同,问答技术大致可以分为检索式问答、社区问答以及知识库问答 三种。检索式问答和社区问答的核心是浅层语义分析和关键词婚配,而知识库问答则正在逐渐完成知识的深层逻辑推理。

除了这几种 NLP 运用,其它如情感分析、自动文本摘要、社会计算和信息抽取也都有广泛的运用,读者可查阅原报告了解详细内容。

3 人才篇

3.1 国外实验室及人才引见




AMiner 基于发表于国际期刊会议的学术论文,对自然言语处理范畴全球 h-index 排序 top1000 的学者停止计算分析,绘制了该范畴顶尖学者全球分布地图。

这部分内容中,AMiner 还选取在 ACL、EMNLP、NAACL、COLING 等 4 个会议在近 5 年累计发表 10 次以上论文的国外学者及其所在实验室做简要引见。包括:
    Chris Dyer,卡内基梅隆大学言语技术研讨所Christopher D. Manning,斯坦福大学自然言语处理小组Dan Klein,伯克利大学自然言语处理小组

除了以上提到的,国外还有一些知名自然言语处理实验室 :
    圣母大学自然言语处理小组,担任人是 David Chiang哈佛自然言语处理小组,担任人是 Stuart Shieber哥伦比亚大学自然言语处理研讨室,担任人为 Michael Collins

3.2 国内实验室及人才引见

这部分,AMiner 基于论文数据整理了自然言语处理华人专家库,其中包括了来自 NUS、HKUS、 THU、PKU、FDU 等知名高校以及百度、科大讯飞、微软等公司的 367 位专家学者。

而后,AMiner 选取在 ACL、EMNLP、NAACL、COLING 等 4 个会议在近 5 年累计发表 10 次以 上论文的国内学者包括刘群、刘挺、周明、常宝宝、黄萱菁、刘洋、孙茂松、李素建、万小 军、邱锡鹏、穗志方等。




图:国内学者引见示例

3.3 ACL2018 奖项引见

2018 年 7 月 15 在墨尔本开幕的 ACL 公布了其最佳论文名单,包括 3 篇最佳长论文和 2 篇最佳短论文以及 1 篇最佳 demo 论文,值得一提的是 Amazon Door Prize 中北京大学和哈尔滨大学上榜,ACL2018 终身成就奖为爱丁堡大学 Mark Steedman 获得。

接上去,该报告对获奖论文停止了摘要引见。读者们也可以参考机器之心文章《计算言语顶会 ACL 2018 最佳论文公布!这些大学与研讨员榜上有名》

4. 运用篇

从知识产业角度来看,自然言语处理软件占有重要的地位,专家系统、数据库、知识库,计算机辅助设计系统 (CAD)、计算机辅助教学系统 (Cal)、计算机辅助决策系统、办公室 自动化管理系统、智能机器人等,全都需求自然言语做人机界面。长远看来,具有篇章了解 才能的自然言语了解系统可用于机器自动翻译、情报检索、自动标引及自动文摘等范畴,有着广阔的运用前景。

随着自然言语处理研讨的不断深化和发展,运用范畴越来越广。

文本方面的运用次要有:基于自然言语了解的智能搜索引擎和智能检索、智能机器翻译、 自动摘要与文本综合、文本分类与文件整理、智能自动作文系统、自动判卷系统、信息过滤 与渣滓邮件处理、文学研讨与古文研讨、语法校正、文本数据发掘与智能决策以及基于自然 言语的计算机程序设计等。

语音方面的运用次要有:机器同声传译、智能远程教学与答疑、语音控制、智能客户服 务、机器聊天与智能参谋、智能交通讯息服务 (ATIS)、智能讲解与体育旧理想时讲解、语 音发掘与多媒体发掘、多媒体信息提取与文本转化以及对残疾人智能协助系统等。

此外,建立在自然言语处理技术基础之上的心思学、认知学、哲学、混沌学说的共同发展,将使人们对智能的来源成绩有新的看法。假如把计算机网络和将来的网格看作是由机器 组成的机器社会,那么一种属于机器的智能能够会由于人类的参与以及机器社会中各元素的互相作用而自然诞生。这样,机器必将可以经过「图灵测试」,达到「会思索」的层次。而 有关智能机器的研讨也会诞生一系列新的范畴,比如,机器心思学和机器认知学等。

其中,机器心思学次要研讨机器的心思反应和意图。美国圣迭戈神经迷信研讨所研制的 机器人 DarwinV II,可以根据其感知对外部事物停止分类,并根据阅历和知识采取相应的对策。但是,机器心思学的研讨不能局限于此,人们还需求对机器的看法、知觉、思想、情感、 心情、创造力、机器社会、机器交流等方面停止研讨,而这一切还需求计算机迷信、心思学、 神经迷信的同步发展。

而后,AMiner 选取了一些自然言语处理运用较为频繁的场景停止引见,如知识图谱、机器翻译、引荐系统等。

5 趋向篇

随着深度学习时代的降临,神经网络成为一种弱小的机器学习工具,自然言语处理获得了许多打破性发展,心情分析、自动问答、机器翻译等范畴都飞速发展。

下图分别是 AMiner 计算出的自然言语处理近期热点和全球热点。经过对 1994-2017 年间自然言语处理范畴有关论文的发掘,总结出二十多年来,自然言语处理的范畴关键词次要集中在计算机言语、神经网络、情感分析、机器翻译、词义消歧、信息提取、知识库和文本 分析等范畴。旨在基于历史的科研成果数据的基础上,对自然言语处理热度甚至发展趋向停止研讨。图中,每个彩色分支表示一个关键词范畴,其宽度表示该关键词的研讨热度,各关键词在每一年份(纵轴)的地位是按照这一工夫点上一切关键词的热度高低停止排序。







图 16 显示,心情分析、词义消歧、知识库和计算机言语学将是最近的热点发展趋向,图 17 显示词义消歧、词义了解、计算机言语学、信息检索和信息提取将是自然言语处理全 球热点。

AMiner 同时在微博 @ArnetMiner 中发起了关于自然言语处理将来发展趋向的投票,得到了如下结果。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评14

luoxiyaque 2019-1-15 12:37:34 显示全部楼层
AI人才不断是各家科技企业发展相关技术的关键价值点
回复

使用道具 举报

不错
回复

使用道具 举报

暴风熊丶 2019-1-15 12:50:13 显示全部楼层
分享了
回复

使用道具 举报

丢丢怕丢丢 2019-1-15 12:54:19 显示全部楼层
分享了
回复

使用道具 举报

linux_oicq 2019-1-15 13:00:08 显示全部楼层
分享了
回复

使用道具 举报

hanjunfu 2019-1-15 13:09:42 显示全部楼层
分享了
回复

使用道具 举报

oytt 2019-1-15 13:18:05 显示全部楼层
分享了
回复

使用道具 举报

美团分享 2019-1-15 13:27:14 显示全部楼层
分享了
回复

使用道具 举报

醉生死Joker 2019-1-15 13:34:16 显示全部楼层
分享了
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies