刘菁菁：How Multimodal AI Empowers People

净海沙华 · 2021-7-9 15:48:18

多模态AI的目的是使计算机像人脑一样，可以同时了解自然界中的多模态数据信号（如语音、文本、图片、视频等），并完成类人脑的智能义务，比如推断、预测、决策等。
——刘菁菁

活动概况

7月7日晚，清华大学智能产业研讨院首席研讨员、国强教授刘菁菁为U&AI Camp带来题为《How Multimodal AI Empowers People》公开课。

课程围绕多模态人工智能以及其如何赋能人类来展开，重点引见视觉和言语多模态预训练，并解析新时代下机器学习的重要支柱——自监督学习的概念。经过引见人工智能的Responsive（积极呼应）、Resilient（顺应发展）、Responsible（坚守价值）特征，来讨论如何发展担任任的人工智能，促进完成可持续发展目的。

“U&AI Camp | AI for SDGs Youth Bootcamp——AI促进可持续发展青年创造营” 由清华大学人工智能国际管理研讨院（I-AIIG）主办，结合国开发计划署（UNDP）支持、多家人工智能学术机构协办。

讲者引见

刘菁菁：How Multimodal AI Empowers People-1.jpg

刘菁菁教授，清华大学智能产业研讨院首席研讨员、国强教授，美国麻省理工学院计算机迷信博士，英国剑桥大学MBA，曾任美国微软资深首席研讨部门经理，带领科研团队在视觉加言语多模态机器学习、自然言语处理等人工智能范畴展开迷信研讨。加入美国微软研讨院之前，刘菁菁博士曾任麻省理工学院计算机迷信与人工智能实验室 (MIT CSAIL) 研讨迷信家，专注语音对话系统学术研讨。

报告内容

在过去的70年里，人工智能的发展迂回坎坷。上世纪50年代，艾伦·图灵提出“机器能否思索”的成绩，引发了人们关于机器智能的思索；1956年的达特茅斯会议上，“人工智能”的概念被正式提出，推进了人工智能研讨的第一波浪潮；到了上世纪70~80年代，由于诸多成绩短工夫内无法得到处理，人工智能的发展迎来第一个寒冬；2012年至今，随着深度学习的兴起，多项打破性成果诞生，人工智能进入蓬勃发展期。

在明天，人工智能曾经改变了人类生活的方方面面。AIR院长张亚勤院士曾提出人工智能的发展要秉持3R准绳：积极呼应（Responsive）、顺应发展（Resilient）、坚守价值（Responsible）。本次演讲中，刘菁菁教授引见了多模态AI如何从这三个维度为人类社会赋能。

刘菁菁：How Multimodal AI Empowers People-2.jpg

什么是多模态AI

人工智能技术的运用举例：

AI协助视觉妨碍人士：应用AI技术，将周围的环境讲述给运用者听，让有视觉妨碍的用户“听”到周围的环境；

AI眼镜：结合了眼镜、超声波传感器和GPS技术，可以给运用者提供方向、面前物体的颜色、后方能否有妨碍等信息；

指尖阅读器（MIT Media Lab推出）：可以协助有视觉妨碍的人经过手指来停止阅读。

以上一切运用都依赖于多模态AI技术。那么什么是多模态AI？可以将AI模型类比为人类的大脑，多模态AI的目的就是建立一种模型，可以处理、了解自然界中的多模态的信号（如语音、文本、图片、视频），并完成一些智能的义务，比如推断、预测、决策等。在这里我们接触到了人工智能发展3R准绳中的的第一个准绳：积极呼应（Responsive），即我们的技术应该可以处理自然界中的多模态的信号并完成各式各样的义务，进而对人类社会产生协助。

刘菁菁：How Multimodal AI Empowers People-3.jpg

可以客观地说，深度学习给AI世界带来了宏大的变革。在前深度学习时代，语音、自然言语处理、机器视觉范畴是严厉分开的，他们各自只能聚焦于一些单模态内的成绩，比如语音辨认、图片分类等。深度学习完成了让AI范畴从纯粹的单模态研讨向多模态交融研讨转变。不同于前深度学习时代运用团圆的符号空间（如文本中的token，图片中的pixel等），深度学习时代，一切信号都被编码进一个通用的神经空间（neural space），给多模态信息交融带来能够，从而促进了多模态AI的发展。

刘菁菁：How Multimodal AI Empowers People-4.jpg

多模态AI子义务

一些多模态义务的示例如下，在多模态义务中，模型的输入和输入可以是多种模态信号的不同组合：

若输入和输入都是文本，是言语单模态义务，典型的义务无机器翻译，模型会将一种言语翻译到另一种言语；

若输入和输入都是图片，是图片翻译义务，例如将一个有颜色的明晰图片转换成模糊的图片或黑白图片；

若输入是图片，输入是文本，这是图像描画（Image Captioning）义务，给定一张图片，模型需求生成对此图片的自然言语描画；

若输入是文本，输入是图片，这是图像生成（Image Synthesis）义务，给定一段文本，模型需求生成符合此文本描画的图片；

刘菁菁：How Multimodal AI Empowers People-5.jpg

以下义务以文本+图片作为输入：

Visual QA：给定一张图片和一个与图片相关的成绩，模型需求了解图片内容，给出对于成绩的回复；假如给定图片停止多轮问答，则是Visual Dialog义务。

刘菁菁：How Multimodal AI Empowers People-6.jpg

图片编辑：这是另一个非常风趣的义务，给定一个图片框架和用户描画，模型需求编辑图片来满足用户的需求；假如将此义务扩展成多轮的方式，则是Interactive IE义务。

刘菁菁：How Multimodal AI Empowers People-7.jpg

Visual Entailment、Visual Reasoning等义务需求模型根据给定的多模态信息做推理，Image-Text Retrieval是另一个在理想中有较大运用价值的义务，即给定一个文本查询，模型需求在候选图片集中寻觅与之最为婚配的图片，反之亦然。

刘菁菁：How Multimodal AI Empowers People-8.jpg

除此之外，还有Visual Grounding, Vision-Language Navigation等等其他风趣的多模态义务。

多模态AI是一个非常多元化的范畴，义务多种多样，且都非常风趣，世界各地有很多研讨者正在停止着很多风趣的研讨。以上这些只是在图片+文本范畴，对于视频+文本范畴，还有如下义务。

刘菁菁：How Multimodal AI Empowers People-9.jpg

下面是上述多模态义务能构建起的两个实践运用。左图VQA机器人，用户可以上传图片并停止发问，聊天机器人会根据图片回答相关成绩并和用户聊天。右图是基于对话的图片编辑机器人，可以经过和用户的交流，跟随用户的指示，产生新的图片或更改之前设计的图片，来协助用户设计产品：

刘菁菁：How Multimodal AI Empowers People-10.jpg

多模态AI常用技术

机器学习可分为有监督学习、无监督学习、半监督学习，半监督学习可以看作前两者的折中。

在有监督学习中，我们会给模型有标签的数据，随后模型为每个样本做出预测，并根据样本的标签停止模型优化。例如对于图像分类模型，我们给模型一系列的图片，并告诉他哪些图片是狗，而哪些是猫，随后模型可以从这些有标签的图片中停止学习。之后给定一张新图片，模型可以根据之前学得的结果，对这张图片停止猫狗二分类。

无监督学习指模型从无标签的数据中停止学习。即我们给模型大量的图片，但我们不会告诉他这张图片属于猫和狗中的哪一类，模型需求本人去学习。

刘菁菁：How Multimodal AI Empowers People-11.jpg

理想中存在的大量数据都是无标签的，获取带标签的数据是昂贵且费时的，因此自监督学习应运而生。自监督学习的次要思想是除了显式的标注，无标签的原始数据本身，也有一些内在的监督信号可以用来训练模型。在计算机视觉范畴，经过改变图片样本，比如将有颜色的图片转换成黑白图片，或者遮盖图片的某些区域，或改变图片中各个块的顺序，可以构造出一些天然的标签。有了这些天然的收费标签，我们可以在神经网络上停止训练。自监督学习的关键就是用数据本身和一些天然的标签来训练模型。

刘菁菁：How Multimodal AI Empowers People-12.jpg

最近自监督学习方法为NLP范畴带来了很大的打破，例如BERT和GPT-3模型。这两个模型都是Transformer架构，Transformer是一个非常酷炫且强力的模型结构，最近风靡深度学习范畴。大规模模型的预训练可以运用Wikipedia或News copora的收费语料。

刘菁菁：How Multimodal AI Empowers People-13.jpg

在多模态范畴，传统的机器学习的做法是为每个义务设计特定的模型，针对不同义务的模型在模型结构和特征设计方面能够大不相反。

刘菁菁：How Multimodal AI Empowers People-14.jpg

在深度学习时代，我们可以运用自监督学习来预训练一个大规模、Task-Agnostic的模型，而不是设计只针对特定义务的模型。这种通用的模型不显式地针对任何详细义务，但当需求适配到某详细义务时，可以经过微调，将其特化成可以适用于相应义务的特定模型，并获得很好的效果。微调是指，给定预训练好的模型，运用一些迁移学习方法，将模型适配到详细的下游义务中。预训练+微调的范式是目前深度学习范畴非常盛行的方法，其可以应用大量的数据，以一个更通用、高效的方式，处理各式各样特定的下游义务。

刘菁菁：How Multimodal AI Empowers People-15.jpg

多模态预训练从19年的夏天末尾兴起，各种模型如雨后春笋般涌现，如ViLBERT、LXMBERT、UNITER等，他们运用不同的特征提取方法、不同的预训练义务。其中UNITER模型由刘菁菁教授在微软时的团队提出。与此同时，视频+文本预训练范畴也在蓬勃发展。

刘菁菁：How Multimodal AI Empowers People-16.jpg

以下是一些预训练中常用的数据集，每一个数据集包含很多的Image-Text pairs，一个Image-Text pair中，文本通常是对图片内容的描画。

刘菁菁：How Multimodal AI Empowers People-17.jpg

我们通常会设计一些预训练义务来训练模型，以UNITER为例。UNITER是基于Transformer的单流模型。给定一个Image-Text pair，UNITER首先运用图像编码器和Faster R-CNN提取图像中各个区域的特征；随后运用文本编码器，从文本中提取各个token的特征；最后将提取的特征提供给Transformer，并运用一些精心设计的预训练义务来预训练模型。典型的预训练义务有：Masked Language Modeling（预测文本中被遮盖的token），Masked Region Modeling（遮盖图片中的一些区域，训练模型来重构这些区域），Image-Text Matching（判别文本和图片能否婚配）等等。

刘菁菁：How Multimodal AI Empowers People-18.jpg

模型预训练的目的是学习不同模态之间的对齐。以下是Text-Image之间互留意力的示例，展现了模型学习到的图片和文本之间的对齐关系。可以分明地观察到，模型可以将图片中特定的区域与文本中相应的部分联络在一同：

刘菁菁：How Multimodal AI Empowers People-19.jpg

预训练之后，我们可以运用迁移学习，将模型适配到各式各样的下游义务中去。下面列出了一些典型的下游义务：

Visual Entailment：给定图片和关于图片内容的假设，模型判别此假设能否和图片内容相符；

Referring Expressions：给定一张图片和关于图片中某个特定区域的描画，模型找出和此描画相对应的区域。

刘菁菁：How Multimodal AI Empowers People-20.jpg

视频+文本的义务也是相似的处理方式，我们可以用视频+文本数据集（比如HowTo100M，包含100million YouTube视频）来训练模型，下游义务包括Action Recognition等：

刘菁菁：How Multimodal AI Empowers People-21.jpg

此外，预训练模型还有大量的研讨主题，比如训练策略、端到端预训练、模型鲁棒性、模型效率、多言语预训练、探测分析等等。探测分析（AI可解释性）是一个非常风趣的范畴，其目的是了解预训练模型的黑盒，深度学习模型就像一个黑盒，我们不知道在现象背后详细是哪些部分在起作用，此范畴相关研讨可以协助人们了解AI到底是如何有效地工作的。

刘菁菁：How Multimodal AI Empowers People-22.jpg

假如大家想更多地了解多模态AI范畴，可以参考刘菁菁教授与微软、UCSC等合作者在CVPR 2020和CVPR 2021大会上办的 Tutorial。另外，刘菁菁教授参与了与微软、UNC、UCSC等合作者最新发布的 benchmark，叫做VALUE，其中包含了11个不同的视频+言语了解的义务，比如Video Retrieval、Video QA等。可以从网站上下载相应的数据集，参与功能排行应战，也可以下载代码库来尝试运用一些基线模型，这是一个能动手入门很好的方法。此外，还可以运用一些现有的预训练模型，并针对某下游义务停止微调，这样可以更直观地感受预训练方法是如何工作的。

刘菁菁：How Multimodal AI Empowers People-23.jpg

以上是对于多模态AI范畴的一个高度概览。接上去我们讨论AI发展3R准绳中的另外两个准绳：

坚守价值（Responsible）

顺应发展（Resilient）

多模态AI赋能智慧交通

多模态AI的一个重要的运用场景是智慧交通。在这个时代，智慧交通范畴正以迅猛之势发展。目前工业界的四个发展趋向是：电动化、网联化、共享化、智能化。

我们为什么需求自动驾驶？首先是安全缘由，研讨表明，超过90%的道路事故是由人为错误引发的，我们希望借助技术手腕，协助人们做出正确决策，减少人为错误，添加交通的安全性；其次是效率，我们都希望每天的通勤工夫可以放松地坐着休息，或是从事一些放松惬意的活动，让车辆本人行驶；此外，从经济角度来看，自动驾驶范畴存在着宏大的市场，每年可以产生1.5万亿美元的商业价值。

刘菁菁：How Multimodal AI Empowers People-24.jpg

过去的四十年里，人们在自动驾驶范畴投入了很多的研讨和努力：

刘菁菁：How Multimodal AI Empowers People-25.jpg

自动驾驶的实践运用案例有自动驾驶货车、校园后勤、矿车等。以自动驾驶货车为例，货车通常需求停止长途的运输和行驶，自动驾驶技术可以协助减轻驾驶员的负担。

刘菁菁：How Multimodal AI Empowers People-26.jpg

AI是怎样赋能自动驾驶的？下图是一个简化的自动驾驶框架，包含了自动驾驶系统的各个组成成分。首先，最末尾的原始数据层需求传感器、雷达、相机等，来捕获多模态的信号，作为原始数据；随后原始数据会被送给感知层，感知层运用一些计算机视觉模型，比如目的检测、语义分割模型，来对原始数据停止分析处理，还需求运用多模态交融技术来交融不同模态的信号；在解释层我们需求AI模型协助我们了解路况的动态变化状况以及途径的拓扑结构；最后在决策层，我们运用强化学习和其他的AI算法来停止端到端规划和决策。

刘菁菁：How Multimodal AI Empowers People-27.jpg

背后有很多AI技术来支撑这个复杂的自动驾驶框架，比如感知、规划、模拟仿真、人机交互、系统安全等等。可以很客观地说，自动驾驶是最困难的人工智能成绩之一，它也是受限制的成绩。

刘菁菁：How Multimodal AI Empowers People-28.jpg

以下是一些AIR在研讨的传统AI义务：

三维目的检测和语义分割：了解道路上动态、复杂的状况；

刘菁菁：How Multimodal AI Empowers People-29.jpg

多模态交融：训练一个AI模型来交融两个不同传感器（例如雷达和相机）捕捉的不同模态的信号；

刘菁菁：How Multimodal AI Empowers People-30.jpg

模型紧缩和数据紧缩：这是一个很实践的成绩，可以协助边缘计算，让被紧缩的模型可以被部署在一些计算资源受限的边缘设备上。当刘菁菁教授团队展开预训练模型相关工作时，也遇到了模型过大的成绩，即需求很多的工夫、很多的GPU资源去训练。处理方法是经过知识蒸馏，将大模型紧缩成一个较小的模型，比如将一个24层的模型紧缩成一个12层的模型。

刘菁菁：How Multimodal AI Empowers People-31.jpg

本次演讲，刘菁菁教授简要的引见了多模态AI的一些研讨主题，以及多模态AI如何从积极呼应（Responsive）、顺应发展（Resilient）、坚守价值（Responsible）三个维度为人类社会赋能。刘教授希望在这样可持续发展的3R准绳的指点下，我们的AI技术可以最大程度上为人类社会做贡献，同时也最小化对环境、安全、隐私等方面的负面影响！

精彩回顾

公众号回复“多模态AI”

下载残缺PPT

以下为“How Multimodal AI Empowers People”主题演讲残缺视频

精彩内容点击回放

视频加载中...

撰文 / 禹棋赢冼晓晴

编辑排版 / 冼晓晴

校正责编 / 黄妍

纪慧琪 · 2021-7-9 15:57:28

没用！

我忘了买化妆棉 · 2021-7-9 16:03:13

[赞][赞][赞]

3559735 · 2021-7-10 12:59:30

前排，哇咔咔

cnmaomaocn · 2021-7-11 13:47:09

支持你哈...................................

srx102 · 2021-7-12 13:12:41

纯粹路过，没任何兴趣，仅仅是看在老用户份上回复一下

		自动登录	找回密码
密码			立即注册

刘菁菁：How Multimodal AI Empowers People

大神点评5

最近发表

公社版块

关注我们