清华自然言语处文迷信家孙茂松：深度学习受阻之后，我们还能做什么？

晃夷炕 · 2019-11-10 10:47:13

作者 | 蔡芳芳

编辑 | 唐里

10 月 31 日，北京创建全球人工智能学术和创新最优生态的标志性学术活动“智源大会”在国家会议中心召开。

会上，自然言语处理范畴国际领军人物、清华大学教授、智源首席迷信家孙茂松接受采访向记者表示：当前，大数据驱动的自然言语处理曾经做得不错，但大知识或者比较丰富的知识驱动的自然言语处理才刚刚起步，智源的目的是完成大数据和大知识双轮驱动的自然言语处理。完成这一目的的前提是构建一个全世界通用的人类知识库，这也是智源“自然言语处理”研讨方向迷信家们现阶段要重点攻克的难题。

以下是与孙茂松教授的访谈实录：

孙茂松：人工智能这几年的发展，大家接触比较多的是图像方面的成果，包括很多创业公司，像人脸辨认、刷脸等等，图像方面的提高非常快。但是图像只是智能的一部分，人的智能区别于动物最次要的特征是言语。人工智能范畴有一句话叫：让计算机了解自然言语是人工智能皇冠上的明珠。下一步人工智能关键的地方就是想办法让机器了解人类的言语，这是自然言语处理在人工智能学科中的地位。

对于智源的自然言语处理方向，我们也是根据自然言语处理发展的历史头绪设定研讨目的。自然言语处理这几年的停顿和图像辨认停顿背后依赖的基本方法是差不多的，就是深度学习。深度学习最分明的特点就是依托大数据，必需要有海量的数据来训练。自然言语处理相关的，比如语音辨认和机器翻译，大家觉得这几年还不错，都是靠大数据驱动。好处就是能使功能飞速提升，但也存在成绩，大数据驱动的深度学习是典型的是黑盒。虽然看起来翻译得不错，好像机器了解了这句话，其实完全没有了解，这个系统在处理复杂语义的时分非常脆弱。

假如一个句子中包含世界知识，翻译系统常常会被搞得稀里糊涂。比如公交车上的到站提示“前门快到了，请从后门下车”，把这个句子给计算机翻译，如今一切的计算机系统都是不行的，它不知道“前门”这个地方。

下一步我们以为要真正了解言语、攻克人工智能的难关，需求知识驱动。我们提出口号，大数据驱动的自然言语处理曾经做得不错，大知识或者比较丰富的知识驱动的自然言语处理才刚刚起步。在智源的框架下，我们希望做到大数据和大知识或者富知识双轮驱动的自然言语处理，这对如古人工智能的大数据驱动的方法也是重要的打破。做这件事非常难，需求有计算机可操作的人类知识库作为基本资源，但这个知识库如今还没有做出来。虽然全世界范围内有一些知识库，但是还没有真正可以很好地驱动自然言语处理的人类知识库，特别是常识库，能够有一些基于某个角度的知识库，但得到全人类认可的还没有。我们希望在常识知识库、世界知识库方面做一些尝试，然后在这个知识库基础上研讨新的大数据和大知识结合的人工智能算法。假如做出来一定是一项非常重要的打破，能不能做出来需求看我们的努力。

问：您提到知识和数据互补，不同的人能够会有完全不同的知识，怎样去提炼人的常识？我们又怎样完成让机器学习什么呢？

孙茂松：知识体系看起来好像每个人都有不同，但实践上人类共同知识的核心是相对波动的。有一种范畴，在全世界都差不多。比如说人是动物的一种，这一类的知识如今是比较充分的，但更丰富的细节就很匮乏。比如看如今谷歌、Wikidata 等国际上曾经放出来的规模特别大的知识库，其实是大而不强的。我举个例子，比如关羽，Wikidata 中关于关羽的描画包括关羽是一个武将，关羽是中国三国时期蜀国的一个将领，他生在哪年、死在哪年，他儿子是谁。但我们熟知的关羽的一切事迹都没有方式化的描写，比如关羽过五关斩六将、走麦城都没有，Wikidata 只是给你一篇文章，它只能做粗浅的处理，没办法做推理。这类世界知识如今做得非常不够，这些知识是客观存在的，我们需求把这些总结出来，全人类应该有很多是有共识的。

我们希望能做这样的一个库，至少做其中的一部分，比如表现北京特征的库，做得比较深化一些。要做到这一点不能完全靠人工。文本中有这种描画：关羽哪年哪年从麦城开了哪个门趁夜逃走，这句话是有的，但是需求方式化。谁逃走了？关羽。地点在哪？城门。什么时分？半夜。这些得抽取出来，抽取出来当前，才能把一切句子变成一阶谓词逻辑表达式，相当于变成数学公式，计算机就可以操作了，可以用数学逻辑的办法来推理，可以比较深化。但前提是必须能对这句话分析出刚才说的结构，这就是自然言语处理的义务。

问：如今有一些学者以为人类很多发明在实际之前，比如先做了飞机再出来空气动力学，他们觉得这是一个合理的过程。在您看来，黑箱对研讨和运用会带来什么风险，能够形成什么成绩？

孙茂松：黑箱并不是不好。1950 年图灵提出图灵测试，那就是黑箱测试。假如我们在那个时分说一定要把人脑的机制搞清楚才做人工智能，那到如古人工智能都还没法做。实践上黑箱并不是贬义的，在不同阶段，搞不清人脑的时分就只看外特性，外特性有智能就是智能。图灵测试伟大的意义在于，我不需求搞清人脑，也可以做人工智能，这是它最重要的意义，能够很多人没看法到这点。

黑箱有它的成绩，它是不得已而为之，假如能搞清人脑的机制再做研讨，一定会更深入。比如图像辨认很容易被攻击，就是由于它是黑箱，是端到端的，端和端的状况千变万化，图像再多也会也例外的东西出现，即便有 99% 的概率可以正确辨认，也会有 1% 的例外，那 1% 的例外假如出现某种成绩，结果能够就很蹩脚。必须有系统性的知识才能有系统性的处理方法，否则这个成绩处理不了。

举个简单的例子，60 年代机器翻译业界很有名的一个学者写了一篇文章，他举了一个很简单的例子叫“The box was in the pen”，box 是盒子，pen 有两个意思：一个是钢笔，一个是围栏。翻译这句话对人来说非常容易，对机器却很难。首先它要知道 in 是什么意思，in 是一个小东西装到一个大东西里边；第二要知道 box 盒子比围栏小，所以可以装到围栏里，但不能装到钢笔里，装不出来。这句话如今用谷歌、百度、微软的机器翻译系统翻译出来都是错的，都会翻译成箱子在钢笔里，由于它没有知识，人家没告诉它该怎样翻，它只能按端到端的黑盒来做，做的就是错的。围栏这个词出现的频度很低，钢笔说的频度高，系统就挑了一个更有能够出现的词，就是钢笔。假如系统具有知识，就能知道这样翻译是不对的，由于盒子只能装到围栏里，哪怕围栏这个词出现的频度再低，也只能翻译成围栏。

问：您提到要建立知识库来训练机器和算法，让它在运用黑箱之前优先思索常识。但是对于何为常识，有一些全人类有共识，有一些没有共识。有些人能够以为登月是阴谋论，能够还有其他关于地缘政治或者其他方面的分歧。想构建合适全人类的知识库就会遇到这个成绩，这个成绩怎样处理？想要训练机器去阅读这些材料，材料应该怎样选取？

孙茂松：我说的是人类知识的核心部分，核心部分是比较波动的，也就是所谓的常识。超出常识范围的知识，相当于观点，不同人会有不同。我们试图刻划常识部分，比如你去餐馆，不管全世界哪个餐馆，你要点菜、上菜、吃完之后付账，不付账就跑人家一定不干，这就属于常识。

观点是灵敏的，为什么我们要做“双轮驱动”，由于观点难以穷尽而且因时而变、因人而变、因地而变，这就要靠大数据，需求从数据文本外面发掘。光靠知识一定不行，核心知识覆盖面不够，需求两方面结合。

另外，知识库一定要是高质量的，外面不能包含人为的错误，这是基本要求。人类常识和世界知识基本的准绳之一，就是要符合理想。

问：假如运用更小的数据集，在现有的研讨形状下能够会导致精度下降，基于保护隐私的思索，假如有人想努力于用小数据集产出异样或相似的结果，这个工作是不是很困难？

孙茂松：很困难。目前这一轮大家用的比较火的方法基本都是基于大数据，没有大数据根本不成。小数据是研讨热点，比如医疗范畴要拿到病例很困难，能够经过各种答应也只能拿到几百个人的病例，如何把学术研讨利益最大化，做出好的成果，必须是小数据驱动。小数据就意味着要有知识，要可以推理和判别，都是这代人工智能最大的短板。

如今大家都在研讨小数据，目前假如能获得成功，普通都是在特定范畴。针对特定成绩有相当的知识，在知识的引导下做小数据，才有能够。目前没有一个通行的公认的处理方案，不像深度学习，有一些基本的工具是全世界都有的。

问：想要打造一个您后面提到的庞大的世界知识库，最大的难点是什么？

孙茂松：这个知识库不能够完全靠专家来写，写知识库需求非常有程度的人，要带着一帮人做 10 年、20 年，才有能够做得不错。在中国，这种条件基本不具有，中国科研评价体系急功近利太凶猛了，虽然一再号召我们发扬“板凳干坐十年冷，文章不写半句空”的科研肉体，但如今真正坐冷板凳的人还是太少了。而且坐冷板凳的人还得有程度，没程度坐一百年冷板凳也没有用。

做知识库需求对世界万物有准确的把握，世界万物实际上都是互相关联的，全部描写是不能够的，一定要抓次要矛盾。这些东西有关系，要把它的重要关系找出来，需求有判别，这是很不容易的。最早做知识体系的是亚里士多德，他的《范畴论》把世界分成若干个范畴，研讨言语的主语、宾语、谓语也是亚里士多德，在中国不太具有异样的条件。

一个可行的办法是我们把现有世界各方面的知识库都拿来，先做一个整合，看能不能汲取一些营养，再从文本中发掘知识库。你可以想象，互联网上一切知识其实都写出来了，成绩是怎样方式化，分出谓词、主语、宾语，让计算机来做这件事很难。但这个事做出来当前，就有能够把互联网上一切的文本方式化，变成相似后面提到的谓词逻辑表达式，相当于变成某种公式化，然后就可以往知识库填充了。假如这条道走通了，成绩就能在一定程度上得到处理。但是让机器分析出主谓宾太难了，如今瓶颈卡在这里。能不能达到我们的想象，要看自然言语处理技术能得到多大的协助，这个有很大的应战。我们不敢说一定能做出来，但我们正在往那个方向努力，我们以为目的应该要做到这个程度，才有能够处理成绩。能否达到不好说，太有应战性了，既有难度又有规模的应战。

问：图神经网络最近一年热度很高，前段工夫您的研讨团队也发表了一篇图神经网络的综述论文，能不能跟我们聊一聊图神经网络将来的发展潜力？

孙茂松：图神经网络本身的算法研讨，总的来说还是中规中矩，并没有特别的奇思妙想。把如今神经网络的办法用到图上是一个比较自然的延伸，这两年得到关注是由于端到端基本上走到极致了，科研红利基本走到头了，大家看法到端到端有成绩，所以要引入图。引入图就是为了引入相关的知识，显式知识还是隐含的知识，两者有关联，相当于抽取某种知识放出来，就反映我说的，希望把某种知识嵌出来才有图神经网络。图神经网络研讨难在于图本身怎样构造，这是我个人感觉最有应战性的，其他的方法研讨反而不是很难。原来图方面曾经有很多工作，图的经典算法非常多，图神经网络是图算法和神经网络算法比较自然的结合，这有应战，但是应战不是特别大。图假如做的很浅，即便把图神经网络放出去，效果也有限；假如图包含的知识很多，能够就难，目前对图的运用还是相对简单。

问：如今大家都到了对深度学习末尾反思的阶段？

孙茂松：如今不是反思，走到这基本上深度学习的好处我们享用得差不多了，它的不足不是做得不好，而是由于它的方法自然就有某种缺陷，大家都碰到了这个成绩，不用反思。比如机器翻译，谷歌基本上把全世界双语语料都整全了，按理说功能非常弱小，但还是处理不了“Box was in the pen”的成绩。翻译要做到信达雅，信如今还没做到呢，更不用说达雅。那要怎样做到信呢，大家如今都看法到深度学习好像不能处理这个成绩，没有知识库就处理不了。端到端的功能非常弱小，但是有时分又不像我们想象的那么弱小，这不是反思，受阻了就得思索。

问：您怎样评价当前国内在自然言语处理范畴学术研讨的现状？您觉得做的好和不好的点在哪？

孙茂松：国内自然言语处理从研讨角度来看，我以为在国际上应该是处在一线，在最好的之列，并不逊于斯坦福、MIT 这些机构。但是自然言语处理缺一个特别重要的里程碑式打破，比如图像范畴有李飞飞团队的 ImageNet，这样一个特别重要的停顿。自然言语处理外面有两个方向有比较大的停顿，一个是语音辨认，一个是机器翻译，这两件事都是由公司在往前推。大学的研讨假如从发表高程度论文这个角度来说，国内做得不错，从定量目的来看，我们实践上做得不错。但是这个范畴还要看效果，不能光看论文，这方面我们就弱了，反而公司在引领潮流，由于需求弱小的计算才能。从研讨角度我们做得还不错，并不意味着我们全体做得不错。坦率说，在 NLP 范畴我们跟国际上最好的学校做的差别不是太大，反而在比如语义资源建设上，美国有 WordNet，我们没有，当然国内有 HowNet，但是 HowNet 不是大学做出来的。

问：如今有很多成果都是工业界做出来的，这个趋向会延续下去吗？

孙茂松：工业界在享用学术界得到的创新，0 到 1 这个事基本不是工业界做的，像深度学习的 0 到 1 是大学做出来的，1 到 2 大学也在做一些。再往后走，工业界就可以上手了。大学需求在 0 到 1 这个阶段发力，才能真正把方向定清楚，2 到 N，大学是做不过企业的。当然这个过程有时分是分成 0 到 1、1 到 3 和 3 到 N。0 到 1 是原创，1 到 3 还是有一些技术迷信的成绩搞不清楚。我们如今做得比较多的是 1 到 3，而工业界也末尾做 1 到 3 了，大学和工业界比就没有太大的优势。大学就应该放手，不去做 3 到 N。大学应该在 0 到 1 方面发挥作用，这就触及到更大的成绩，触及到人才培育，触及到钱学森之问了。

蓝黑_红孩儿 · 2019-11-10 10:50:29

决胜盘：世界的规则标准和大数据是独一正确途径方法—原创性
世界各行各业的规则标准和大数据是处理难题的正确途径方法。
有些行业曾经有了世界该专业行业的规则标准和大数据。
但是多数行业还没有世界的规则标准和大数据。有待于建立世界的规则标准和大数据。建立某一个行业世界的规则标准和大数据，是特别宏大艰难的工程。
赞同清华大学教授、智源首席迷信家孙茂松“完成这一目的的前提是构建一个全世界通用的人类知识库，这也是智源“自然言语处理”研讨方向迷信家们现阶段要重点攻克的难题。”
—2019.11.9

qiangbaowang00 · 2019-11-10 10:55:56

黑盒成绩本身不存在。我们不应该追求知识驱动，而应该追求共识驱动。

流苏鹿晗 · 2019-11-10 10:57:48

大学应该做0到1的观念很好。3到N以大学的资源和工业界是没法比的

神秘小子 · 2019-11-10 11:02:43

言语辨认，翻译范畴错误率太高。

15半I · 2019-11-10 11:10:53

我觉得我曾经明白了人脑的思索机制，他搞神经网络，应该也明白啊

只有士奇没有哈 · 2019-11-10 11:17:07

不只仅是计算机数学学科就能处理的还得研讨人脑的思想方式

山葉小猴 · 2019-11-10 11:20:27

给大脑嵌入芯片，屏蔽看法，经过计算机联网，构成真正智能。

精品雪茄 · 2019-11-10 11:30:54

机器不能够替代人的复杂思想，不能够有创新灵感，就先摩仿动物性条件反射？

眨眼泡泡鱼 · 2019-11-10 11:39:15

坐等人工智能怎样样改变世界

		自动登录	找回密码
密码			立即注册

清华自然言语处文迷信家孙茂松：深度学习受阻之后，我们还能做什么？

本帖子中包含更多资源

大神点评23

最近发表

公社版块

关注我们