找回密码
 立即注册
搜索

中科大 × MSRA | 周明博士讲座实录:自然言语处理让生活更美妙


作者:微软学术合作

本文约5600字,建议阅读10分钟
MSRA 副院长周明博士以《沟通无界——自然言语处理让生活更美妙》为主题,引见了自然言语处理(NLP)尤其是神经网络 NLP 的停顿,讨论了将来的技术发展。


标签:自然言语处理

中国迷信技术大学×微软亚洲研讨院系列讲座开讲,MSRA 副院长周明博士以《沟通无界——自然言语处理让生活更美妙》为主题,引见了自然言语处理(NLP)尤其是神经网络 NLP 的停顿,讨论了将来的技术发展。他还从企业角度讲述人才培育的体会,协助同窗们寻觅将来个人发展方向,加强本身软实力、硬实力,为科研、职业发展打下坚实基础。

主讲人引见

周明博士,微软亚洲研讨院副院长

国际计算言语学会(ACL)后任会长,中国计算机学会副理事长、中国中文信息学会常务理事、首都休息奖章获得者。他长期从事自然言语处理研讨,并对 NLP 在中国和世界的发展做出了重要贡献。

沟通无界——自然言语处理让生活更美妙

话题 1:引见自然言语处理的研讨
    为什么这几年人工智能获得了一日千里?

我以为有如下三个方面来推进。

第一个就是数据,我们有了史无前例的大数据。应用大数据,基于机器学习就可以获得数据的规律或者抽取重要的知识,来指点系统停止智能操作。

第二个就是以深度学习为代表的算法。有了深度学习的算法和工具,使得编制人工智能的程序变得容易。

第三个就是计算才能。如今云计算或者 GPU 集群训练一个大的模型不在话下,以前几个月训不出来的模型,如今几天或者几个小时就可以训练出来。

这三个要素,推进了人工智能在语音、图像、自然言语了解等各个方面获得新的停顿。

    神经网络自然言语处理的关键技术

神经网络自然言语处理是当下的主流。这个图展现了神经网络自然言语处理过去 5 年左右发展的一些头绪,以及对机器翻译、阅读了解等研讨的推进。

神经网络自然言语处理的关键技术,我以为有5个最重要的。

第一个是 word embedding,词嵌入,也就是词的一种语义表达,用多维向量代表词的语义。

第二个是 sentence embedding,句子嵌入,即一个句子的语义表达。

第三个是 encoder decoder,把一个字符串转换成另外一个字符串,经过编码器(encoder),然后再经过一个解码器(decoder)来完成。中间发展了一个技术叫留意力模型(Encoder decoder with attention),来强化编码和解码的程度。

第四个技术是 Transformer,引入了自留意模型来提高循环神经网络的编码和解码才能。

最后一个技术是预训练模型。这五个技术是目前神经网络自然言语处理最核心的技术。

如何获得词的语义表示呢?我引见一个叫 Word2vec 的方法。

词的含义需求联络上下文决议。我们想把词表达出来,实践上是想做到同义词、近义词在语义空间中相近。我们表达一个词,是经过它周围的词来代表的。有一句话叫“观其伴知其意”。比如 bank 这个词,很难详细说它是什么意思,但是假如知道它常常跟什么样的词在一同衔接、关系多强,那也大概猜出这个词的意思了。

Word2vec 是经过一个大规模的语料库来计算、训练预测才能。比如,可以用一个词的左边两个词和左边两个词,经过一个神经网络预测中间这个词。一末尾一定预测不准,网络初始化后,经过多个例子训练,假设网络波动了,就能有一个比较精准的预测结果。这样就得到了每个词的语义表示。异样,也可以经过当前词预测左右两个词或者更多的词,根据预测错误调整网络权重逐渐得到较好的预测。

下面简单引见“预训练模型”。上述的 word embedding 是静态的。比如 bank 这个词,无论什么上下文,它都是同一个 word embedding。但实践上 bank 在不同的上下文有不同的意思。为了表现动态信息,引入了一个预训练的自然言语模型,表现每一个词在不同上下文的意思。普通来讲,如今常用的是 Masked LM,即把某一个词盖住,根据上下文经过一个网络来猜这个词,猜得不准绳再调整网络。也可以加入一些别的义务,比如预测某一句话是不是当前句的下一句。基于这种信息可以训练一个网络,对输入的句子得到上下文关联的词的向量表示。基于这种预训练模型,对自然言语的上下文和单句都可以很好地建模。

自然言语处理,能做什么?这里举一些例子。可以做语义分析。经过一句话,我们来分析出它的语义表达。假如是上下文有关的话,要把上文得到的结果存上去,协助下文停止语义分析。

我们也可以从一个文本中抽取重要的信息,抽出工夫、地点、人物等等得到结构化的信息表示。可以用来知识抽取、搜索,还可以做自动文摘和自动问答等等。


我们也可以对图像停止注解。了解一个特定图像的内容,给出自然言语的描画。

我们还可以做很好的机器翻译、手语翻译、对联、写诗等等。




话题 2:讨论将来的技术发展趋向

如今自然言语存在哪些成绩?

首先它缺乏常识和推理。

有的时分多轮对话,前后轮不分歧,由于机器人没有把前轮得到的信息很好地保存上去并在对话的时分巧妙激活,从而出现工夫上不分歧,空间上不分歧,还有逻辑不分歧等各种现象。

我们如今应用的是大规模的计算资源来做训练,特别耗资源,大家都抢 GPU。为了在计算才能上占据指导地位,很多大公司都去开发新的芯片、大规模的 GPU 集群支持训练过程。这成为一种无休止的计算资源的军备竞赛。

数据本身也存在成绩。数据标注的时分,由于标注员或者来源的成绩,使得数据的标注有一些偏向形成训练获得模型也有很多偏向。数据本身的偏向如何消弭?如何消弭歧视?这是目前没有很好处理的成绩。

还有隐私成绩。用户的数据,我们不能拿来做训练的话,也没办法完成个性化服务。可是拿来训练的话,能够侵犯用户的隐私。如何做隐私保护下的机器学习?比如如今的联邦学习就是一个非常重要的研讨方向。

将来的技术发展,我们想做什么?

我们想做可解释、有知识、有道德,经济的不断学习的 NLP。比如,对于资源丰富的义务,要做上下文建模、数据纠偏,多义务学习,人工知识的引入;对缺多数据资源的义务,要研讨迁移学习把其他范畴或者广义的知识引入到详细的范畴中,或者引入人类知识,使模型可以冷启动,在运用过程中再逐渐提高本人的才能。

将来的研讨重点包括以下 10 个方面。

假如大家有兴味,可以参考我们最新出版的两本书了解神经网络、问答或翻译的详细引见。

话题 3:从企业角度讨论人才培育的体会

如今,我们高校毕业生人数迅速增长,但是我们发现有很多同窗到了企业之后,无论是专业技能还是与人相处的才能,都跟企业的要求有很大的间隔。当然,这也是正常的,每个人都有一个再学习和再调整的过程。但是,假如在大学阶段就在某些方面无看法地调整本人,将离开社会上可以很快地顺应。我们如今的人才培育机制培育出很多工程师和普通程度的人才,但是领军人才相对比较少。学校如何加强一些杰出人才的培育,强化这样的人才必备的素质?我们组过去培育了 500 名同窗,还有二十几名博士和二十几名博士后,也积累了一些阅历,在这里跟大家分享一下。

我以为优秀人才的培育需求注重三个方面的素质。

第 1 个是人生哲学方面,对人的终身的一个要求和高度。要求越高,长大的空间越大,就能够有更好的成就。第 2 个是硬实力,数学、编程这种专业技巧。第 3 个是软实力,EQ、执行才能、计划才能、悲观态度。

分别给大家阐述一下我的观点。

首先,人生哲学。除了人的品德道德之外,有三个方面的素质非常重要。

第一是追求创新。创新就是提出异于常人、异于常规的一些思绪见解,为满足社会需求停止改进,创造新的实际方法、技术形式、产品,提高消费率并造福人类。比如乔布斯,大家都知道乔布斯终身不停地创新。他有文理兼备的素质,很多人以为他是理工男,但实践上乔布斯停学之前上的是里德学院,是个典型的自在派文迷信院。乔布斯爱学的选修课是书法和舞蹈,把书法、舞蹈学到的一些美学观点,引入到苹果的电脑设计之中。他也强调一定要做产品上的创新,创新决议了你是首领还是跟随者,你要跟最优秀的人一同工作。他大胆推进产品创新,把苹果从下滑中援救了回来,成为市值最高的公司之一。所以我们同窗要一末尾就培育创新的才能。

第二是长大型的思想。人的思想有两个,固定型、长大型。人人都有这两个思想。固定型思想以为,人的特质和才能后天固定,后天无法改变,这种思想导致大家按部就班、随意而安、害怕失败,只情愿做本人擅长的事情。长大型思想以为任何技能、才能都可以经过不断地学习、发展,没有一个后天的框架说我数学不好,所以我就不搞数学,我英语不好,我永远不学英语。不是,而是要逆袭,应战本人,强化本人的相关的一些才能。比如说微软的 CEO 纳德拉就主张长大型思想,鼓励大家创新。微软公司从一个原来比较舒适的范畴,PC 和操作系统,走向不熟习但有更大发展空间的元计算和开源,给公司带来了更大的发展空间。

第三就是格局要高,即人生的境界要高,不能小富即安。举个例子,微软的创始人比尔盖茨,大家都知道他最近辞去微软董事会的职务,一心一意去做慈善了。他在微软公司的时分,一末尾就立意高远。在公司规模还很小的时分,他就说,将来每个人桌子上都有个电脑,每个人电脑上都运转着我的软件。公司做大之后,他又想到人类共同发展遇到的一些成绩,比如公共卫生等等,把钱和精神几乎全部投入到这些人类共同面对的成绩上。我也希望,大家不要说将来多挣些钱、买套房子,就完事了。我们应该想到凭我们本人的才能走完这终身的话,能协助人类处理很重要的成绩,我们有本事、有才能去处理。

人生哲学之后,第二个是硬实力。数学非常重要,它是建立模型、停止推导、停止统计、找出规律必不可少的一个手腕。刚才我引见了神经网络自然言语处理,背后都是一些数学。其次,英语很重要。大学时期大家都学了很多英语,但是有的同窗毕业之后到了国外,张不开嘴,看英文文献存在一些妨碍。英语是一个不停学习、终身学习的过程。第三,我想强调编程的重要。我们有一个想法,假如不会编程的话,这些东西就沦为幻想。会编程的话,一末尾很稚嫩的一个程序,有新的想法、不停迭代,越来越好,最后才会有一些伟大的创新。

第三是软实力,这里稍微多说一下。

情商高的人,他了解自我,可以停止管理、自我激励,也了解别人的心情,很好地处理人际关系,承受压力,自信但不自满。他尊重别人,肯于协助别人,不怕失败。低情商的表现就是自我看法差,不自信,不确定目的,依赖别人,不思索别人的感受,处理人际关系才能差,生活无序,爱抱怨,心思承受才能差,受不了一点打击,不与别人交流。

软实力还表如今对环境的顺应才能。比如说大学毕业的同窗聚在一同,你会发现有几位同窗后来非常优秀,但是他并不是大学的时分学习最优秀,而是到了一个新的工作岗位或社会上,很快地调整本人,把本人的不足疾速地补下去,跟别人学习、跟书本学,成为越来越优秀的人。可是,有好多人,他不太顺应环境,总觉得环境对他不公,遇到波折就灰心懊丧,没有很好的长大空间。那么 10 年、20 年过去之后,他原地踏步,甚至倒退,而其别人在行进。

还有就是积极悲观的肉体。积极的人看到每一次的应战,都会看到一些机会,而消极的人,他会看到一些忧患。所以说“机遇”,既有危机,也有新的机会。

最后,我希望大家很好地规划你的大学 4 年。

刚退学的时分,是一个非常稚嫩但充满等待的人,一块璞玉,我希望你经过本人很好的努力和规划,4 年后走出校园,有一身武艺,可以剑走四方、行侠仗义,成为一个有勇有谋的国家栋梁。正如一句格言所说,理想如晨星,我们永不能触到,但我们可以像航海者一样,借星光的地位而航行。请你选择一条合适本人的路,坚持走下去,坚持下去直到成功。

这就是我明天的讲座,希望大家了解自然言语处理的核心技术,目前的发展和将来的趋向。我也希望大家思索一下,你在研讨的末尾阶段也就是大学第一年的时分,调整一下本人,做出相应的规划,为将来的研讨生涯做好预备。

Q&A

Q:如今我们做计算机编程的同窗都在追捧算法岗,比如深度学习、人工智能、NLP 等等,国家也在培育人工智能的新方向,大家越来越火热地往这个方向挤。这种现象健康吗?当前毕业能找到工作吗?

我以为,首先是人工智能非常重要,一是国家注重,二是如今有很大发展出路,包括软件硬件,各种运用例如安防、医疗、健康、交通等等,都有很多没有处理的成绩。但是,并不意味着一切人都要追求去搞人工智能。如今学习一些人工智能,包括编程,为将来做不是人工智能的一些方向也有一定协助。AI既是一个技能,也是一个思索方式,把思索方式运用在其他一些范畴内,也会加强你的才能,提高你的创新速度。Follow your heart,看你想做什么,不一定别人做什么你就要做什么。同时也要兼收并蓄,在大学时期把关键的技术,尤其是基础部分,数学、算法、编程弄好,将来可以很容易地调整本人。

Q:很多同窗觉得如今预训练模型横扫了我们的范畴,需求极大的运算量,大家只能做 fine-tune 的义务,甚至实验室的条件做 fine-tune 微调都比较费劲。在这个方向上该怎样停止继续的研讨,如何减少对计算力这么大的依赖?

由于我们同窗还在学习阶段,没有到像 MSRA 或其他公司那种直接停止创新的阶段,所以次要阅历还是放在学习已有的知识和基础上。学习要分两个阶段,前者是打基础,后者是运用,不同的阶段对资源有不同的要求,大家尽量去顺应目前的资源状况,调配一下本人,不要为计算资源所累。

Q:有的同窗在研讨生物学,由于我们如今深度学习都是基于类脑的学习,这对我们机器学习有协助吗?自然言语处理这些知识,很多需求往跨学科范畴去做,能不能反过来,从别的学科往我们这个学科来做?

我觉得首先跨学科总是有协助的,过去有数理想证明跨学科产生新想法,但是我们在完成跨学科之前,别自觉,先把本人的学迷信扎实,把人类已有的阅历、技能掌握好,在此基础上再去寻求跨学科。第二,最好请一个其他范畴的同窗或者教师跟你合作,大家各有所长,可以获得更好的停顿,防止你过于偏颇。所以我觉得跨学科也要讲究按部就班的过程。

回到脑迷信,脑迷信对自然言语处理,目前来讲没有证明有多么好的一些促进,将来有没有能够?有能够,由于能够会改进神经网络的一些算法或者结构。过去最早的神经网络也受脑迷信的启示,但是目前来讲又停滞了,看不出来脑迷信对 NLP 或其别人工智能有多么大的一个停顿。也许将来积累到一定程度,又有一个迸发的过程。我希望同窗要 keep an open eye,首先了解本人的范畴,同时也关注其他学科。试图捕捉将来的机会,但是不成熟之前,也不焦急,打好基础,不一定要急于成功。

编辑:王菁

校正:林亦霖

—完—

关注清华-青岛数据迷信研讨院官方微信公众平台“ AI数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

kelong520 2020-4-6 13:00:20 显示全部楼层
顶顶更健康
回复

使用道具 举报

学习下
回复

使用道具 举报

5566677888 2020-4-8 18:30:39 显示全部楼层
只看文字不过瘾啊~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies