专访哈工大刘挺教授：自然言语处理迎来黄金时代

羽千叶 · 2019-2-17 07:24:50

机器之心原创

作者：李泽南

在 11 月 7 日举行的微软 21 世纪计算大会上，来自哈尔滨工业大学的刘挺教授向我们引见了中文信息处理技术的前沿停顿。演讲过后，机器之心对刘教授停止了专访，他与我们聊到了哈工大近期在 AI 上的研讨，国内外 NLP 技术的发展，以及哈工大人工智能研讨院的愿景。

刘挺对于国内年轻学者的研讨提出了建议，也对目前顶会论文「注水」的现象发表了看法。他还表示，明年哈工大很有能够就会末尾招收人工智能专业的本科生了。

刘挺教授是国内自然言语处理（NLP）范畴的领军人物，任哈尔滨工业大学人工智能研讨院副院长、计算机学院社会计算与信息检索研讨中心主任。刘挺是国家「万人计划」科技创新领军人才，教育部人工智能科技创新专家组成员，次要研讨方向为人工智能、自然言语处理和社会计算。其所带领的哈工大社会计算与信息检索研讨中心（HIT-SCIR）是目前国内顶尖的 NLP 研讨机构之一。

刘挺教授

以下采访内容停止了部分整理。

有关哈工大 SCIR

机器之心：作为国内顶尖的 AI 实验室，哈工大社会计算与信息检索研讨中心（HIT-SCIR）近期有哪些新研讨？

刘挺：我们最近停止了一些风趣的研讨。首先是提出了事理图谱，常规知识图谱的每一个节点可以是名词（实体或概念），但在很多时分，我们需求去了解一些事情之间的关系，我们称之为事理。

如今我们说的深度学习短少可解释性，事理分析可以协助我们解释推断的缘由。这是我们最近研讨的一个重点，也得到了大家的认可。但目前事理分析的方向还有存在很多应战，我们欢迎更多的业界的同仁和我们一道继续讨论这个方向。

第二个研讨有关语义了解。哈工大的句法分析技术在 2018 年的 CoNLL 国际句法分析评测中，针对 57 种言语获得世界第一的成绩，超过了斯坦福、IBM 等大学和公司。虽然如此，用异样的算法在中文和在英文上做句法分析，中文比英文差 8 个百分点左右。我觉得其中的一个核心缘由就是中文自然短少形状、时态的变化。

我们提出的「语义依存分析」方法「一步跨越了两步半」，它很像句法分析：句子分析结果也是依存树，但是词间关系曾经不是主谓宾状定补等语法关系，而是施事、受事、工具，工夫、地点等语义关系。经过一步到位的方法，我们如今可以得到的结果，在语义分析阶段和英文就比较接近了。我很看好这项研讨将来的发展，在它做完之后，语义依存树的表示是可以直接协助回答成绩了。

在 SCIR 实验室中还有很多研讨，覆盖了底层的句法、语义分析，运用层面的人机对话、情感分析、知识图谱等多方面的工作。

机器之心：您曾经说过，哈工大 SCIR 的研讨工作并不面向纯实际，同时也不完片面向运用，如何在这样的指点思想下寻求打破性研讨？

刘挺：哈工大是一所典型的工科大学，我们不断努力于实际与实际的结合。SCIR 实验室努力于经过和工业界的合作去了解真实成绩，同时结合范畴内最先进的技术停顿寻求新的打破。我们希望站在比企业再超前 3 到 5 年，甚至 5 到 10 年的地位上，经过原理的创新以及纯净的方法，把技术目的向前推进一步。

经过和企业的合作，我们发现了很多真实场景下非常风趣的成绩。关注国际上深度学习、机器学习等方向实际上的最前沿的打破；同时也关注国家的严重需求、企业的严重需求，然后把两者对接，在此基础上停止创新，这是我们次要的工作思绪。

机器之心：自然言语处理范畴（NLP）与数据的结合非常严密，这需求与科技公司，以及传统公司展开合作。哈工大是如何与工业界展开合作的？

刘挺：自然言语处理和数据是严密结合的，尤其是机器和用户互动产生的数据，但这些是高校等科研机构所缺乏的。其实某种意义下去讲，正是由于公司拥有大量数据、宏大的算力，才使得它们在某些方面处于抢先地位，这意味着我们需求和企业停止合作。

和企业的合作除了数据的获取之外，还可以了解很多非常有价值的真实运用。我们和腾讯有着长达 12 年的深度合作，和科大讯飞也有 4 年的合作关系。我们还和很多公司展开了项目合作，如华为、阿里、小米、搜狗等。

NLP 的将来方向

机器之心：微软副总裁沈向洋博士说过「人工智能将来的打破在于自然言语了解」。在您看来，目前 NLP 范畴中研讨人员面临的最大应战是什么？

刘挺：十年前，自然言语处理在计算机学科中是有些边缘化的，由于它是一个交叉学科，介于工科和文科之间。但明天 NLP 已变成了大家关注的焦点——我们以为自然言语处理是人工智能皇冠上的明珠，在这其中有技术发展阶段的缘由。我们可以把人工智能分类为运算智能：比如下棋的人工智能；感知智能：如人脸辨认和语音辨认。而人脸辨认的画面中，还有事物之间的关系，辨认这些需求了解更深层次的概念，这些是认知层面的成绩。感知智能发展到一定阶段的时分，大家就会很自然地把目光投射到认知智能，思索如何处理人类的笼统表达，这其中包括生活中的对话、企业外部的大量知识，它们是用文字表达的。

因此，自然言语处理正变得非常重要，同时自然言语处理还面临着文本范畴迁移、文本推理等很多应战。

刘挺教授等人提出的，目前自然言语处理范畴所面临的应战。

自然言语处理的成绩，嵌入到了不同行业的各个成绩当中。这就是为什么很多大型互联网公司的云计算的平台能够是由一个部门提供的，但是自然言语处理却是由很多部门都在做——由于无法为不同的行业提供通用的 NLP 技术。

我最近总结了自然言语处理由浅入深的四个层面：方式、语义、推理和语用，以及它们之间的关系，从上表中可以看到如今每个成绩被人们研讨的程度，最近的停顿包括分布式语义表示的广泛采用（以 word embedding 为代表），以及知识图谱的作用。自然言语处理如今正处在从语义到推理的过渡阶段。

机器之心：听觉、视觉结合的多模态能否会是 NLP 将来很有出路的研讨方向？哈工大 SCIR 能否已有这方面的研讨了？

刘挺：我们在多模态方面的研讨刚刚展开，我们正在研讨在文本生成方向上，根据图片和视频去生成文字。

随着技术的发展，SCIR 将来会跨界地停止一些范畴交融的研讨。我们以为不同的模态应该会有共同的指向，比如一段视频、旧事图片周围带有文字阐明，或语音辨认后的文本。我们应该试图经过这些内容去了解人物的情感，了解人物之间的关系。目后人们对于跨媒体的研讨照旧不太够，一个缘由是大家都觉得在本人的媒体上曾经做得挺好，而且可做的事还很多，但我们要看法到：人学习的过程是一个多媒体环境，机器需求模拟人从多媒体环境中学习的过程。

对年轻学者的建议

机器之心：刘教授有哪些对年轻科研人员的建议？博士生应该如何展开 NLP 方面的研讨？

刘挺：如今，哈工大和国内顶尖高校的先生在 AI 顶会上可以发表很多论文，也获得了一些 Best Paper。但以我的观察，研讨生们在选题立意方面还有提升的空间。年轻人有时分比较急，这也可以了解：为了博士毕业，必须发几篇文章。所以他们往往会选择一个当前比较盛行的，但能够不一定那么有价值的成绩，论文发出来就毕业了。他们毕业之后，下一个阶段能否沉下心来，做更具价值的研讨呢？但是他又面临职称提升。所以，我们如今的成绩在于技术的跟踪才能非常强，会疾速地达到世界一流的程度，但原创性、引领性还不够。我希望那些有志向的研讨生在选题立意方面，要有更大的志向，选择更有价值更有应战性的标题，不要太急，要有决计做出一点新东西来。

我们可以看看自然言语处理发展到明天，到底有什么东西是中国人提出来，被世界广泛运用的。我们有一些中白话语知识资源，比如《北大综合言语知识库》和《知网》，但是从算法层面，还缺乏很有影响力的打破性成果。国家提出到 2030 年我们要在国际上引领人工智能的发展，在将来十多年，我们的年轻人在教师的带领下，应该立更大的志向，而毕业这种特别紧迫的目的，需求适当的协调、平衡一下。

机器之心：随着 AI 的火热，人工智能顶会的论文数量也越来越多，但人们发现很多被接收的论文无法经受代码复现的琢磨，您如何对待这样的现象？

刘挺：一旦论文的导向过重的时分，竞争会很激烈——当你的论文发不出来，能够影响博士毕业，影响到评职称的时分，就会有人急功近利一些。其实迷信本来是允许失败的，需求鼓励探求肉体，但现状是假如你的目的无法超过 Baseline 或者 state-of-the-art，论文就不容易发表，于是大家就有能够会在一些细节上做一些工程化的东西，去提高技术目的。

但论文中往往略去工程细节，而且很能够那些细节就是针对这个数据是有效的，换到另外的数据集上就有效了。这种工作发表之后，大家假如去参考、复现又达不到效果，就是糜费精神。

我们需求以更迷信、更严谨的态度来对待研讨，应该追求真正的原理打破：深度学习刚刚火起来的时分，在 ImageNet 上获得的提高是非常显着的。

假如是经过各种调参、工程化和论证提高一点点程度，其实往往没有多少的原理上的提高。我们应该去追求更大的应战。

但另一方面，对于年轻的研讨者而言，并不是每个人都能推进原理上的宏大提高，几个百分点的提高也不很不容易。那么那些宏大的改进到底有没有价值？

我的回答是有价值。在迷信的大厦里，宏大的改进就像一粒粒沙，聚沙成搭，别人读了这篇论文会得到一点启示，这也是有价值的。但假如有大量的工程的细节出来，好像把目的提高了，实践上并不具有可推行性，这个就没有太大的价值了，代码无法复现的就没有价值，应该摒弃这种做法。

机器之心：国内研讨机构正活跃在各大机器学习会议上。就您而言，目前国内大学和北美的一些名校相比，还有哪些需求学习、自创的地方？

刘挺：如今我们经过统计数字可以看到，以论文的数量来看，国内的论文有很多，我们排在非常靠前的地位。但论文的援用的数量还是不多，国际学术影响力还需求进一步提高。这是由两方面缘由形成的。我觉得首先我们最大的差距还是原创肉体不够，所以原创性的成果不够。

但是还有一个次要的要素，由于国外多年来在学术上的抢先，所以即便中国人和美国人同时做出结果，本国人普通会倾向于援用美国人的。

我觉得国内做科研的机制导致学者们的短期压力过大：毕业的压力、评职称的压力，评上了教授之后还需求去竞争的一些头衔的压力。此外，拿各种项目的压力也比较大，各个学校的考评压力也是比较大的。

北美的教授看起来可以有更多的工夫，按照本人的兴味停止研讨。我觉得我们从机制上还无法保证学者可以静下心来。所以我们在一些研讨上还没有处于引领的地位。

另外，国内学术界和企业界的双向活动通道还不够畅通。像李飞飞从斯坦福离任加盟谷歌，再回到斯坦福，这在中国的企业和大学里是不容易出现的。在中国的一些互联网企业、AI 企业里也聘用了很多学者，但这些学者基本上都是来自海外高校。

国内学界与业界的通道是单向的，进入工业界后，你过了三年五载，你想再回去，高校未必有你合适的地位。这一方面从机制上也需求改进。

哈工大人工智能研讨院

机器之心：最近国内外很多大学纷纷成立人工智能学院，哈工大也在往年 5 月成立了人工智能研讨院，这一机构目前有哪些正在停止的义务？

刘挺：在人工智能范畴，如今有的学校成立学院，有的学校成立研讨院。为了顺应国家发展的潮流，除了科研以外，这些机构还要培育人才，我觉得这非常重要。哈工大搞人工智能的团队很多，有一个第三方的统计显示：哈工大培育的人工智能人才是中国最多的。

为了顺应国家新一代人工智能发展规划，哈工大的人工智能研讨院在往年 5 月成立。人工智能研讨院的工作分为四个层次、七个方向。

我们希望哈工大人工智能研讨院能在一段工夫之后获得令人骄傲的成绩。

机器之心：哈工大将来也会像其他一些学校那样，招收一些人工智能专业的先生吗？

刘挺：哈工大曾经由计算机学院向教育部提交了央求人工智能本科专业的央求。我国人工智能的人才培育如今其实有两个番号，一个叫智能迷信与技术（如北大），有几十所大学是用这个番号的。

也有不少名校想叫人工智能这个名字，这个又申报了一批，这两个称号在将来或许会同时存在。包括哈工大的各家高校，从明年起很能够就会末尾本科的人工智能专业招生，相关专业应该很快就会获批。

在中国，本科叫专业，硕士博士阶段叫学科。如今国家曾经在计算机方面有计算机迷信与技术、软件工程和网络空间安全三个一级学科了。我们还希望可以尽快推进人工智能一级学科的建立。

如今，哈工大在硕士招生时已末尾了调整。我们专门设置了一个人工智能方向的培育方案，以供往年 9 月份新退学计算机学科的同窗们自行选择。将来在他们毕业的时分，校方会证明他们是人工智能方向培育的先生。他们的培育的方案体系和普通的计算机的或者软件工程会有所差别。目前，这个方向的报名非常积极。

明天有哪些论文值得一读？扫码开启订阅，每天15:00及时速递。

shine77 · 2019-2-17 07:29:51

运用言语学和机械语音转换，不是中科大比较牛逼吗？

今生唯一Jacky · 2019-2-17 07:32:00

为刘教师点个赞。

周无衣 · 2019-2-17 07:39:04

我是哈工大81级的本科生，我当时的专业的称号就是“人工智能与形式辨认”，8163班。不知缘何明天的哈工大为还要向教育部央求人工智能本科的专业？难道85年我毕业后这个专业撤了？不明白。

我看他幸福 · 2019-2-17 07:47:27

基于统计的机器学习和基于神经网络的深度学习，是当古人工智能运用的两大主流，在推进人工智能运用的进程中，李大拿起到了普及知识和行业吹鼓手的作用

名草 · 2019-2-17 07:48:51

这个学科还处于蒙人阶段，听引见都很凶猛。让它翻译一篇文章，看看作品只能叹息，中英文翻译软件还不如蹩脚的非英语本科生译的好。

流苏鹿晗 · 2019-2-17 07:56:57

我不信

河鞋社会7 · 2019-2-17 08:03:02

分享了

xu4113812338 · 2019-2-17 08:08:16

不要受骗！美国媒体宣布这样的信息，是让中国这些国家不要研发人工智能，这样美国就可以占有相对的优势。

soona_111 · 2019-2-17 08:19:06

分享了

		自动登录	找回密码
密码			立即注册

专访哈工大刘挺教授：自然言语处理迎来黄金时代

本帖子中包含更多资源

大神点评21

最近发表

公社版块

关注我们