对话清华大学孙茂松：第三代人工智能要处理“可解释性”成绩

34556 · 2019-7-5 17:03:53

正如人类会综合应用视觉、听觉、触觉、言语等信息，让人工智能（AI）从多角度、多模态、多学迷信习自然言语也是清华大学人工智能研讨院的目的与义务。

2019年7月1日，清华大学人工智能研讨院第八个研讨中心：自然言语处理与社会人文计算研讨中心（以下简称中心）在校本部FIT楼举行成立仪式。中心主任由清华大学人工智能研讨院常务副院长、国家重点基础研讨发展计划（973计划）项目首席迷信家孙茂松教授担任。

7月3日，澎湃旧事（www.thepaper.cn）记者走进清华园，与孙茂松教授聊了聊这个名字格外长的中心成立的背景、担负的使命、以及当下人工智能的发展、困境与处理方法。

AI诗人、人工智能辅助法官与将来的诺贝尔经济学奖获得者

言语是人类智能的重要标志，在人类文明中的地位与作用无须置疑，自然言语处理，粗浅地解释就是“让计算机学习人类言语”。清华大学新设立的中心旨在经过加强者工智能的基础研讨及其与人文社迷信科的交叉合作，建立更弱小的机器用知识库，进而提升人工智能对言语的学习和处理的才能。

孙茂松以为，目后人工智能同社会迷信和人文迷信的结合有两个次要的桥梁，一个是广义的数据，比如说金融市场上的数据，可根据数据来预测市场行为；另一个就是言语文字构成的文本，比如旧事、音讯、用户在社交网络上反映观点和心情的各种“短信息”等等。

基于人类言语文字这一桥梁，自2015年底起，他指点一个最后以两位本科生为主体的课题小组，经过深度神经网络的方法，让机器对全部古代诗歌停止“阅读”并“了解”，在此基础上，推出了会作诗的AI——“九歌”，使人工智能“跨界”到了文学创作范畴。由于公众的关注与参与，到目前为止“九歌”曾经产生了差不多400万首诗，“从古传播至今的诗歌总量估计达不到400万首，假如这么想，效果也还不错。”小组目前正在研讨古代诗的生成，以期满足大众越来越多样的“作诗要求”。

社会人文学科是一个很广大的概念。除了文学外，往年以来人工智能研讨院正在与清华大学法学院合作，在原有的法学基础上更多地加入计算与人工智能的成分。法学院越来越看法到，“计算法学”是将来法学研讨的一个发展趋向。孙茂松也提到，近年来最高人民法院指导的案卷卷宗数字化、公开化是计算法学发展的一个重要基础。

当澎湃旧事（www.thepaper.cn）记者问将来能否会有“AI法官”时，孙茂松说，“应该会有‘人工智能辅助法官’。虽然本质上机器的才能一定超不过优秀的法官，但机器的确有它的长处，比如说它可以疾速阅读大量的卷宗，人有时分会判别有片面性、心情上会有所波动、法官程度也会参差不齐，机器则不会。”

孙茂松指出，人工智能目前基于大数据的深层神经网络方法（也叫深度学习方法，见后）有能够为某些社会人文范畴带来研讨范式的改变。虽然清华人工智能研讨院目前刚刚末尾停止外汇兑换率预测的研讨，但他以为人工智能与金融、经济的深度交融可望带来极具震撼力的成果，一旦深度学习方法被创造性地、系统性地运用到这个范畴，甚至“这几年国际上能出一个诺贝尔经济学奖”。

针对金融、经济系统的高度复杂性，孙茂松以为，当把各类相关信息都涵盖出去，并且有高超的手腕对这些信息停止“大一统”式的有效处理时，这个复杂系统的可预测性便会分明上升。他举了个例子，“蚂蚁王国有本人的一套运作规律，但这个规律有时会变得非常脆弱，由于能够忽然来一个人，啪地来一脚，便给这个王国带来了灭顶之灾。仅仅从蚂蚁的世界来看，这个突发事情是不可预测的。但假如把人的要素包含出去，细致了解这个人的秉性，比如他能否是一个有爱心的人、能否是一名佛教徒等等，他的行为的可预测性就会大大提高，蚂蚁王国的不可预测性也会随之大大降低”。

在孙茂松看来，经典金融学或经济学的研讨范式次要是依托人的感性思辨和求解方程（无论是线性还是非线性方程）。但复杂且庞大的金融和经济系统里充满了不确定性，很多现象难以用方程显式地描写。但深度学习方法具有高度的非线性性质，在大数据的驱动下，实际上它能隐式地模拟任何复杂的方程，愈加有效地处理系统的不确定性。这就使得一种全新的金融学或经济学研讨范式的产生成为能够。

把“黑盒子”变成“灰盒子”

“当代人工智能教父”、2018年图灵奖得主约书亚·本吉奥（Yoshua Bengio）以为，人工智能范畴在近些年出现宏大变革要归功于 “深度学习”（deep learning）的出现。他在一篇名为《深度学习：人工智能的复兴》的署名文章中说，“近年来，深度学习曾经成为了驱动人工智能范畴发展的最次要力气，各大信息技术公司在这方面共掷下了数十亿美元的资金。”

本吉奥此前接受澎湃旧事（www.thepaper.cn）记者专访时表示，现有的自然言语处理系统掌握了大量的词汇量和言语转换的技巧，但是却并不了解句子的真正含义，机器“会犯一些非常愚笨的错误，甚至没有两岁小孩的了解才能”。同时他以为，模拟人脑的神经网络以期可以完成类人工智能的机器学习技术，即神经网络技术对于新时代的意义是宏大的。

虽然意义宏大，但目前的深层神经网络系统存在着一个严重不足：给定一个输入，系统给出相应结果的深入缘由对人来说是不透明的，从这个意义下去说，它基本上是一个“黑盒子”。这就导致系统的稳健性会变大打折扣，系统的适用范围也会缩窄。当我们深究机器为什么犯错时（如机器翻译系统为什么把一句话翻成这样、而不翻成那样），机器却无法给出解释，“反正我就翻成这样，你看着用吧。”

此外，深度学习最擅长处理的是关联性：当输入“公鸡打鸣”这个词语时，它会自动联想到“太阳升起来了”这句话。这表现了一种关联性，但显然前者不是导致后者的缘由。深度学习如今基本上没有因果推理才能。孙茂松说，深度学习只是在统计意义上“觉得”某两个东西是相关的，但两者之间到底有没有逻辑关系，它却浑然不知。

孙茂松进一步阐释，自然言语处理研讨面临着异样的难题，实践上，“可解释性”是整个人工智能范畴目后面临的困境，也是目前的国际学术研讨前沿。研讨者们正在努力让这个人工智能“黑盒子”至少变成一个“灰盒子”。孙茂松以为，在自然言语处理方面，知识库的构建或许是一个处理方法。以古诗词写作举例：“灞桥”后接“折柳”，深度学习应该能从诗库中捕捉到这个知识关联，但其它众多知识关联能否都能学到，就不好说了。但假如我们自觉地把跟“灞桥”相关的东西全预先列出来，如“灞水、驿站、销魂、断肠、长安、关中八景、李白、李商隐、孟浩然…”，建立起一个知识图谱，那么，机器就可以根据这个知识图谱比较自觉地去写诗，针对性更强，写诗过程也便具有了一定的可解释性。

根据人工智能研讨院院长张钹院士的说法，人工智能在其发展史上曾经先后阅历了感性主义和阅历主义两代。第三代人工智能应该是这两者的完美结合。处理可解释性成绩，是其核心研讨义务之一。

由于知识自然地具有一定解释性，知识库就带有一种可解释性。

“通专虽应兼顾，而重心所寄, 应在通而不在专”

以人工智能和大数据为标志的第四次工业革命到来之际，国内多所高校末尾规划人工智能教育。2017年5月，中国迷信院大学成立人工智能技术学院，成为我国人工智能技术范畴首个片面展开教学和科研工作的新型学院；2018年，上海交通大学与南京大学先后建立了人工智能研讨院与人工智能学院，南京大学还招收了首批人工智能专业本科先生。

而作为中国顶尖的高等学府，清华大学对顶尖人才培育一向高度注重。2005年设立的计算机迷信实验班（因其创始人、“图灵奖”独一华人获奖者姚期智而得名“姚班”）是全国乃至全球抢先的计算机人才培育的摇篮。一流的高等教育有责任助力计算机迷信和人工智能达至下一个令人鼓舞的高度，更应该可以给这个时代带来颠覆性的影响。

那么，人工智能本科专业的设置能否必要？人工智能要不要在本科阶段就独立成系？

“通专虽应兼顾，而重心所寄, 应在通而不在专”，孙茂松用清华大学老校长梅贻琦的一句话为澎湃旧事记者解释了国内顶尖高校正于人工智能本科教育或许应有的态度。在参考了全球名校如MIT（麻省理工学院Massachusetts Institute of Technology）、斯坦福大学、CMU（卡耐基梅隆大学Carnegie Mellon University）等的课程建构后，孙茂松以为人工智能不应贸然独立于计算机迷信技术的一级学科。当然，各个高校根据各自不同的状况和需求制定本人的发展策略，也是可以了解的。

“清华次要的还是要稳，没有特殊的需求不要变，一变反而变乱了，两拨人能够无序竞争了。” 全体波动、积极探求是清华大学在人工智能本科教育上的方针。

往年，清华大学在“姚班”之外新设立了“智班”，全称为“清华学堂人工智能班”，在计算机教育结构大体不变的前提下，这个规模不大的实验班将对人工智能人才、特别是顶尖人才本科阶段的培育停止深度探求。而人工智能研讨院的工作次要定位在研讨生阶段，特别是博士生阶段的培育。

在本中心之前，清华大学陆续成立了人工智能研讨院基础实际研讨中心、智能机器人研讨中心等七个研讨机构。

孙茂松说，这八个中心的核心力气次要对应着人工智能研讨的“初心”，也就是研讨人的感知和认知。感知最重要的通道是视觉和听觉，所以设立了视觉智能和听觉智能中心；而认知表现人的言语、推理、逻辑、学习的才能，所以设立了基础实际中心、知识智能中心和自然言语处理中心等。再向外探求就是智能人机交互与智能多模态信息交互乃至机器人的相关研讨，中心和中心之间是严密联络、互相合作的。

刚满一周岁的清华人工智能研讨院已基本完成了“整合力气、统筹安排”的目的。孙茂松表示，接上去的两个中心会分别以“社交网络大数据”和“人工智能芯片”为关键词。

		自动登录	找回密码
密码			立即注册

对话清华大学孙茂松：第三代人工智能要处理“可解释性”成绩

本帖子中包含更多资源

最近发表

公社版块

关注我们