找回密码
 立即注册
搜索

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力

srx102 2020-10-30 15:51:21 显示全部楼层 阅读模式
北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-1.jpg


【新智元导读】人类不只可以经过眼睛“看清”周围环境中的东西,还能“辨认并了解”这些东西,对这些东西构成“认知和决策”。如今,研讨人员正努力让AI也做到这一点。北京大学博雅特聘教授、前沿计算研讨中心执行主任陈宝权的这篇精彩演讲,对当前国内三维视觉智能范畴研讨概况、技术运用方向和将来前景做了精彩分析。
众所周知,人工智能是模拟人类智能的技术,完成对人类智能的完全再现,是人工智能的终极目的。而人类智能是从人类的感官和认知末尾的。所以,人类的感官往往成为研讨人工智能的动手点,比如视觉。
对于人类而言,不只可以经过眼睛“看清”周围环境中的东西,还能“辨认并了解”这些东西,对这些东西构成“认知和决策”。如今,越来越多的AI范畴的研讨人员正努力让AI异样做到这一点。从人类的三维视觉出发,三维视觉智能已成为人工智能研讨和运用的抢手范畴。
在往年3月27日新智元举行的“智能云·新世界”AI技术峰会上,北京大学博雅特聘教授、前沿计算研讨中心执行主任陈宝权发表了题为《三维视觉智能及运用》的演讲,从研讨人员的视角,对当前国内三维视觉智能范畴研讨概况、技术运用方向和将来前景做了精彩的分析。
以下为新智元整理的演讲内容:

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-2.jpg


北京大学博雅特聘教授、前沿计算研讨中心执行主任陈宝权
明天很高兴无机会可以在这里发表演讲!明天下午的讲者次要来自于企业,我就从学术研讨的角度,对如今非常盛行的人工智能技术的重要分支——视觉智能来做下引见。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-3.jpg


说到视觉智能,大家都不生疏,人工智能的很多技术是基于人的各种感观的,其中视觉感观就是非常重要的一环。在视觉智能方面的很多技术曾经在工业界得到非常好的运用。随着运用的深化,越来越多的视觉智能技术进入“三维视觉智能”阶段。也就是说,我们的眼睛不只要看清某个东西,看法某个东西,还要走到这个场景外面去,在三维世界里真实地感受场景,好像身临其境。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-4.jpg


这就需求具有三维空间感知与认知才能的智能,即三维视觉智能。任何一个新的研讨方向的出现都不是凭空而来,而是和许多其他学科交叉而来的。三维视觉智能的研讨就是集合计算机图形学、计算机视觉等范畴的技术与传统的人工智能、学习、大数据等很好地交叉交融。
三维视觉技术的发展得益于视觉传感器的疾速发展,曾经在推进很多运用,比较有代表性的包括无人车、机器人,以及文娱、影视等其它范畴的运用。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-5.jpg


三维视觉研讨什么?总结起来有几大次要方向:

首先是三维感知,也就是感知三维空间,获取和处理三维深度等;然后是地位感知,比如感知相机的地位等;第三是三维建模,不只对场景有基本的深度感知,还要获得关于场景残缺几何模型的描画。最重要的就是三维了解,对场景和其中的物体从三维空间来停止了解。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-6.jpg


三维视觉的发展得益于视觉传感器的发展,而传感器大致可以分为两类,一类是被动传感器,如今我们用的各种相机就是被动传感器。另一类就是自动传感器,比如激光扫描,以及各类以自动发射信号为主导停止测量的传感器。大家知道,随着手机的疾速发展,将来的手机会同时装备两类传感器,也就是深度传感器和传统的颜色传感器。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-7.jpg


下面简要引见一下我们在这方面的一些探求性工作。2009年,当时大疆无人机还做定制化产品,我们请大疆做了一台定制化无人机,目的用它来做倾斜角航拍,应用无人机从空中得到航拍影像,经过三维重建计算当前得到三维影像数据(留意,还不是残缺的三维模型),有了三维描画就可以从恣意视角自在地遨游场景。可以看到,虽然用的只是二维传感器,依然可以经过视觉计算得到三维数据的描画。

隐式三维感知:动态相机完成视频无缝接合

在我讲如何应用自动式传感器直接获得三维场景几何模型之前,我想先引见一下,其实对于影像的三维感知不一定要以显式的方式表示出来,可以经过隐式的方法获得一定程度的三维感知,也能完成一些类比于直接采用三维信息才能完成的功能。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-8.jpg


这个好比人的视觉感知,我们虽然对视觉的认知是三维的,但也不是一切基于准确的三维测量。这里举几个例子。比如,下面是电影里的一个片断,我们可以把其中的人物和表演放到一个新的场景里去,由于相机是动态的,这里就需求有一个隐式的相机三维地位恢复,才能把一个动态的前景和一个动态的视频背景无缝交融在一同。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-9.jpg


下面是一段表演视频,我们可以提取它的一部分三维骨架信息,驱动一个不会跳舞的人来跳舞。左边的这个人假设不会跳舞,她只是做几个动作,左边大图外面左上角是真正会跳舞的舞者,我们用她的专业动作来驱动不会跳舞的人来跳舞。就是经过对“驱动”视频停止三维了解并“迁移”三维动作到参考视频中的人物而并合成新的视频,于是在左边大图里,这位女士也会跳舞了。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-10.jpg


我们不只可以把一个人的动作迁移到另外一位骨架相似的人身上,也可以把小孩的动作迁移到大人身上,甚至可以把动物的动作迁移到人的身上。这就需求具有一定的三维骨架重定向的才能。
比如,下面的动图中有两个人在跳舞,但是每个人的动作方向、脸部朝向、身高都有所不同。像这样一个运动的定向差值,都是经过隐式三维了解和编码完成的。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-11.jpg





北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-12.jpg


下面讲自动传感器的运用,近年来自动式传感的发展非常非常快。特别是无人车技术的发展要求,进一步推进了传感技术的飞速发展。早在无人车火爆之前,我们就于2009年末尾采用车载移动激光扫描器来停止城市级别的大场景三维扫描,构建城市场景的三维模型。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-13.jpg


我们经过车载三维传感技术得到了大量点云数据,并应用这些数据停止几何建模,得到了非常精细的三维模型。我们对城市场景里各种类别的复杂物体停止建模,例如对树木等目的停止三维辨认,辨认出不同类型的树,再针对不同树木的几何特征,对树木停止高精细化的三维建模。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-14.jpg


地方电视台曾经对我们做过一期专门报道——《把城市搬到电脑里》。当时我们对深圳一个片区停止了残缺的三维建模。这之后我们接到了很多电话,问我们:用你们的车开过一遍是不是就能获得我们城市的三维模型?实践上我们做不到,缘由不是由于数据处理的成绩,而在于前端的数据获取。
我们的城市绿化做得太好了,车开过去只能扫描到树,扫描不到建筑。假如要真正处理这个成绩,就要把处理方案移到前端,想办法可以残缺地获取数据。
因此,我们末尾提出应用机器人获取数据,来进一步处理这个成绩。机器人在现场采集数据的同时停止数据分析,看看数据是不是有缺失,假如有缺失就要走到相应地点去获取所需信息,从而构成一个数据获取与处理的闭环。

让机器人不只看得见,还要看得懂

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-15.jpg


首先从单个物体的实验末尾,机器人手持Kinect(一种应用结构光获取三维模型信息的自动式传感器)扫描一个物体,例如一个3D打印的玩具,能获取目的物体全方位的三维数据。机器人本人规划扫描途径,直到最后获得一个残缺的三维模型。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-16.jpg


接着实验的是场景认知成绩。不只要获得场景的残缺三维数据,而且还要看法每个物体到底是什么,要去了解场景里的每个物体,获取物体的语义信息。异样的道理,认知的过程必须构成一个闭环,机器人的实时决策能不能根据现有的三维数据对这个物体停止辨认。假如不可以,就要走到新的角度去获取数据。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-17.jpg


进一步,我们的算法就可以拓展到一个更大的室内场景中。这种状况下,只要一个机器人是不够的,我们可以应用多个机器人。这些机器人要完成协作,需求一个实时的协同工作算法。在室内环境下,我们曾经有了非常好的机器人协同方案。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-18.jpg





北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-19.jpg


机器人不只可以在三维空间导航行走,还应该成为真实世界的一员。完成这一点就要让机器人和理想场景打交道,比如让机器人拿起一个杯子,打开一扇门,甚至和人握手等。这种直接的三维交互非常重要。这需求对机器人空间定位和途径规划停止更多的研讨,这方面我们近期做了一些工作。

让机器人具有决策和执行力,替人类完成更多工

我们沿着这个技术道路探求,思绪也变得愈发明晰。经过三维视觉与人工智能技术的结合,我们让机器人愈加智能化与功能化,让机器人做更多人在理想生活中可以做的事。机器人具有现场自主决策和执行的才能,比如在工业流水线上可以协助组拆卸件,物流场景中搬箱子等。这样的运用,触及到非常精细化的技术,比如准确高效的运动规划,还有各种各样的控制,智能的执行等。我们在这方面也有了些探求性的工作。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-20.jpg


随着三维传感器的普及,三维数据越来越多,如何完成对三维场景的精细化了解变得非常重要。了解场景很重要也很有效的一个方法就是深度学习。最早一切的深度学习都是针对二维影像。卷积神经网络面向的是二维影像,而对于三维场景,输入数据是三维的点云。
由于没有卷积神经网络可以自然地处理非结构化的三维点云,我们针对这个成绩设计了PointCNN卷积神经网络,它的功能是相当好的,我们也很高兴看到有很多公司在运用我们的网络。

北大教授陈宝权:AI+三维视觉,让机器人具有决策和执行力-21.jpg


面向物流范畴的运用,我们还尝试了一个机器人搬箱子的测试。在去年京东“双11”时期停止了10天的压力测试,机器人在现场代替一组人(两人一组)去辨认箱子、搬箱子,并把大大小小不同的箱子搬到传送带上。这是我们的技术第一次从学校的实验室走进理想场景中。但是我们也感遭到,越走近理想场景,成绩就会越复杂。在座有很多企业界的人,欢迎各位能过来跟我们交流合作。
三维视觉智能的研讨与运用如此重要,但国内还没有一个基于三维视觉的社区。去年底,由本人召集在中国图像图形学会旗下成立了三维视觉专业委员会,目的是把学术界和企业界的相关人士结合在一同。欢迎更多相关企业加入出去,一同推进三维视觉技术的发展。
谢谢各位!
回复

使用道具 举报

大神点评11

分享了
回复

使用道具 举报

越塔强杀 2020-10-30 16:01:21 显示全部楼层
分享了
回复

使用道具 举报

34556 2020-10-30 16:02:08 显示全部楼层
分享了
回复

使用道具 举报

chenmin 2020-10-30 16:06:08 显示全部楼层
分享了
回复

使用道具 举报

飞而复来号 2020-10-30 16:13:16 显示全部楼层
分享了
回复

使用道具 举报

15半I 2020-10-30 16:22:09 显示全部楼层
分享了
回复

使用道具 举报

午后の阳光 2020-10-30 16:32:36 显示全部楼层
分享了
回复

使用道具 举报

分享了
回复

使用道具 举报

顶起出售广告位
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册