一次中8篇顶会论文的北大95后「AI萝莉」，如今开源7大NLP模型

20131208 · 2021-6-25 04:33:55

梦晨博雯发自凹非寺
量子位报道 | 公众号 QbitAI

曾有一位北大硕士生，在校时期一次性在国际顶会ACL中标8篇论文，其中2篇一作，还登上了知乎热搜。

在那次热搜之后，这位“论文大户”似乎逐渐偃旗息鼓。
明天，她带着阿里达摩院深度言语模型体系AliceMind回来了。
这位被外界称为“AI萝莉”的罗福莉，就担任这次AliceMind中7个模型的开源。

她的阅历说起来有点“传奇”。
上大学之前没怎样接触过电脑，却误打误撞进了北师大计算机专业。
刚退学时因没有基础成绩垫底，靠着努力跃升到前一、二名。
大三时进入北大言语计算实验室实习，选择了NLP作为本人的科研方向，在3个月内自学Python并投出一篇顶会论文(非一作)。
保研进入北大，硕士两年间在国际顶会上发表了超过20篇论文。
但她出人预料地没有选择继续读博，而是在2020年毕业之后就加入了阿里达摩院，想做点真实的研讨。
进入工业界这两年，她发的论文分明减少了。

在读书的时分，周围的评价机制都是非常在意你的论文数量。但是到工业界，我如今曾经不追求数量了，次要是追求做这个工作是不是真的有落地价值，是不是在这个范畴有一些影响力。

她在达摩院主导开发了跨言语预训练模型VECO，成为AliceMind八大模型之一。这次AliceMind集体开源，她挑起了大梁。

简单的才是最赞的

罗福莉在业界工作这一年，与在学术界时相比心态上有了很大的转变：

在学校的时分总是追求提出一个很复杂的模型，大家看不懂，论文评审人也看不懂，但是到工业界的时分就会发现一眼就能看懂并且还有效的模型才是最赞的。

这也是她所在的达摩院深度言语模型团队的思绪，他们打造的AliceMind八大模型先后登顶了GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO六大NLP威望榜单。
AliceMind中Alice的含义其实很简单，就是Alibaba’s Collection of Encoder-decoders。
其中的模型也像这个名字一样朴实，都是从实践业务需求出发，在Encoder-decoder的基础上停止创新和改进。
通用言语模型StructBERT，在BERT的基础上添加了词级别和句级别的两个新目的函数，相当于让AI掌握了“汉字序顺不响影读阅”这个才能。

这是由于团队在阿里的业务中发现，用户在电商、文娱产品等轻松地运用场景时，常常出现语法、语序不正确等现象。
这就需求让言语模型在面对语序错乱、语法不规范的词句时，仍能准确了解并给出正确的表达和回应。
AliceMind刚刚还再次登顶了多模态威望榜单VQA Challenge 2021。
VQA Challenge的比赛义务相似看图问答，给定一张图像和关于图像的自然言语成绩，AI需求提供准确的自然言语答案。

对此，AliceMind的多模态模型StructVBERT，在通用模型StructBERT的基础上，同时引入文本和图像模态。
应用更高效的视觉特征和创新的交叉留意力机制，在一致的多模态语义空间停止结合建模。

除了跨模态，罗福莉主导的跨言语模型VECO也被顶会ACL2021录用。
VECO中也引入了交叉留意力机制，改变了以往跨言语信息在隐藏层中自动建模的不波动性，而是“显式”地完成。

VECO的另一项创新是在预训练的过程中，充分学惯用于言语了解（NLU）和生成（NLG）义务，并让二者互相学习提高彼此。
如今罗福莉再回顾VECO这个工作，也有一些感慨：

假如是两年前还在学校的我，会觉得这好简单，我可以加上很多的花式技巧。但是到了工业界要思索到架构在不同业务场景下的通用性，只好牺牲一些复杂风趣的模型设计。

AliceMind中的生成式言语模型PALM，则是将预训练目的从重构输入文本，改成了预测后续文本。
这样一个改动就促使模型对输入文本停止更深化地了解，在问答生成、文本复述、回复生成、文本摘要等义务上都获得了更好的效果。
还有结构化言语模型StructuralLM、机器阅读了解模型UED和知识驱动的言语模型LatticeBERT，都在各自的范畴获得了分明地优势。
除了此次开源的7个模型，AliceMind中还包括了超大规模中文了解和生成一致模型PLUG。
AliceMind中的模型，看起来有一个共同特点，就是擅长”跨界“。
从跨言语、跨模态到言语了解和生成的一致，都是基于Transformer架构将不同地输入在一个更大的编码空间上一致建模。
罗福莉补充道：

AliceMind的这种将Transformer作为一致模型架构的处理方案曾经比较成熟，但要做到更好“跨界”，接上去努力的方向是处理不同类型或粒度输入的深度交融和婚配成绩。

从基础模型扩展出才能多样的模型，再把它们在实践业务中结合运用，让AliceMind成了业界才能最片面的深度言语模型体系。
那么AliceMind都用到了哪些地方？
落地是个系统化的工程

AliceMind曾经上线到阿里外部的NLP平台，可以提供给不同部门的业务运用。
在官方网站上也提供了Demo，比如这个基于PLUG模型的言语生成模块。
输入红楼梦选段：

就能生成一段续写：

而像这样可供大家试玩的Demo还有几十个。

一次中8篇顶会论文的北大95后「AI萝莉」，如今开源7大NLP模型-10.jpg

不过这些官网上的服务并非都是由AliceMind提供技术支持，很多都只是这一体系启示下的小模型。
那么这次开源的几大核心目前都在哪里打工呢？
运用最广泛的，就是电商。
尤其是阿里巴巴国际事业部（ICBU）或像速卖通（AliExpress）这样拥有跨境电商业务的部门，就是多言语模型VECO的直接受益者。
VECO是AliceMind体系中的8大模型之一，用于多言语了解和跨语种的文本嵌入、分类，掌握了100多种言语。
阿里外部基于AliceMind的翻译平台日调用量约10亿次，创造了数亿美元的国际跨境贸易和其他国际业务商业价值。

一次中8篇顶会论文的北大95后「AI萝莉」，如今开源7大NLP模型-11.jpg

就像达摩院深度言语模型团队担任人黄松芳所说“言语模型落地是个系统化的工程”：

言语模型从训练、微调到蒸馏、紧缩，到整个部署上线都在平台下面完成，上线之后跟业务方的系统连在一同，可以直接嵌到他们的业务逻辑、业务系统外面去。

我们更熟习的淘宝拍照识图、天猫精灵智能音箱中也有AliceMind的贡献。
目前，AliceMind曾经在阿里外部数十个核心业务落地，日均调用50亿次，活跃场景超过200个。
在阿里之外，医疗范畴尤其是癌症治疗上，AliceMind异样出力不少。
作为一个具有自主学习才能的深度学习言语模型体系，AliceMind运用在搜索引擎上时会有一个重排机制。

一次中8篇顶会论文的北大95后「AI萝莉」，如今开源7大NLP模型-12.jpg

以详细某一类医学文献为目的，AliceMind在粗排先捞了一批相关文本后，还会再次结合文章类型、援用图谱等信息，停止不断地重排。
同时将抽取获得的信息与已知的结构化知识做交融，构建知识体系，最终得到最高质量的临床文献。
在最近16支世界知名团队参加的精准医学国际评测中，仰仗这一精准医学搜索引擎，阿里团队在两项临床证据质量评价上均获得第一：

一次中8篇顶会论文的北大95后「AI萝莉」，如今开源7大NLP模型-13.jpg

这样高精度的专业医学搜索引擎可以在疾病治疗时，为临床医生做提供高质量的临床决策辅助。
法律范畴也有AliceMind的出没。
浙江省高级人民法院就与达摩院合作，完成了从立案到裁判文书生成的全流程智能化审讯系统。
而在这一试点单位中，AI对法官工作量的分担使当庭宣判率提升至90%，结案工夫也从平均40天延长到50分钟。
如今，基于AliceMind的AliNLP平台日均累计调用量超过数万亿次，每天有超过每天有超过1000个业务方运用。

一次中8篇顶会论文的北大95后「AI萝莉」，如今开源7大NLP模型-14.jpg

电商、教育、医疗、动力，通讯、法律、内容搜索、城市大脑……越来越多的范畴在AliceMind的加入下变得愈加便利，愈加智能。
开源之后要做什么？

如今，预训练言语模型目前在NLP范畴以及整个学习界都非常抢手，超大规模参数的模型已成为一种趋向。
对此，达摩院深度言语模型团队的担任人，也是AliceMind的总担任人黄松芳表示：

我们这边其实不会一味地追求大，而是非常强调它的落地。

一个言语模型从研讨开发到投入实践运用，不是一家企业就能做到的。
还需求整个社区的开发者都参与，才有能够将学术论文中的公式算法用到大家的生活便利上。
达摩院希望经过开源，能降低业界研讨和创新运用的门槛，使言语AI进入大工业时代。
下一步，AliceMind打算与言语学、神经迷信等跨学科的单位加强合作，将言语AI扩展到更大的运用中。

开源地址：
https://github.com/alibaba/AliceMind
AliceMind官网：
https://nlp.aliyun.com/portal#/alice
相关论文：
通用预训练模型StructBERT：
https://arxiv.org/abs/1908.04577
多言语预训练模型VECO：
https://arxiv.org/abs/2010.16046
生成式预训练模型PALM：
https://arxiv.org/abs/2004.07159
多模态预训练模型E2E-VLP：
https://arxiv.org/abs/2106.01804
结构化预训练模型StructuralLM：
https://arxiv.org/abs/2105.11210
阅读了解模型：
https://ojs.aaai.org/index.php/AAAI/article/view/16584
交融知识的预训练模型Lattice-BERT：
https://arxiv.org/abs/2104.07204
参考链接：
[1]https://mp.weixin.qq.com/s/LTVVOOhezUN96MRLrqKCAQ
[2]https://mp.weixin.qq.com/s/PW0wZbts6ZpbKZSHyp8aVw

— 完 —
量子位 QbitAI · 头条号签约
关注我们，第一工夫获知前沿科技动态

ibmsumsang · 2021-6-25 04:44:22

啊？

1550216188 · 2021-6-25 04:46:03

sgzy · 2021-6-25 04:47:29

占位

坏蛋三号 · 2021-6-25 04:56:06

分享了

最最最吃货 · 2021-6-25 05:05:05

分享了

2271730747lw · 2021-6-25 05:11:29

分享了

经常郁闷的家伙 · 2021-6-25 05:20:07

分享了

bossfmj.com · 2021-6-25 05:21:54

分享了

義123 · 2021-6-25 05:26:09

[赞][赞][赞]

		自动登录	找回密码
密码			立即注册

一次中8篇顶会论文的北大95后「AI萝莉」，如今开源7大NLP模型

大神点评12

最近发表

公社版块

关注我们