找回密码
 立即注册
搜索

预见将来|图像辨认的将来:机遇与应战并存



编者按:自1998年成立以来,微软亚洲研讨院不断努力于推进计算机迷信范畴的前沿技术发展。在建院20周年之际,我们特别约请微软亚洲研讨院不同范畴的专家共同撰写“预见将来”系列文章,以各自范畴的前瞻视角,从机器学习、计算机视觉、系统架构、图形学、自然言语处理等多个方向出发,试图描画一幅将来科技蓝图。

在计算机视觉范畴,图像辨认这几年的发展一日千里,但在进一步广泛运用之前,照旧有很多应战需求我们去处理。本文中,微软亚洲研讨院视觉计算组的研讨员们为我们梳理目前深度学习在图像辨认方面所面临的应战以及具有将来价值的研讨方向。

辨认图像对人类来说是件极容易的事情,但是对机器而言,这也阅历了漫长岁月。

在计算机视觉范畴,图像辨认这几年的发展一日千里。例如,在PASCAL VOC物体检测基准测试中,检测器的功能从平均准确率30%飙升到了明天的超过90%。对于图像分类,在极具应战性的ImageNet数据集上,目前先进算法的表现甚至超过了人类。

图像辨认技术的高价值运用就发生在你我身边,例如视频监控、自动驾驶和智能医疗等,而这些图像辨认最新停顿的背后推进力是深度学习。深度学习的成功次要得益于三个方面:大规模数据集的产生、强有力的模型的发展以及可用的大量计算资源。对于各种各样的图像辨认义务,精心设计的深度神经网络曾经远远超越了以前那些基于人工设计的图像特征的方法。

虽然到目前为止深度学习在图像辨认方面曾经获得了宏大成功,但在它进一步广泛运用之前,照旧有很多应战需求我们去面对。与此同时,我们也看到了很多具有将来价值的研讨方向。

应战一:如何提高模型的泛化才能

图像辨认技术在可以被广泛运用之前,一个重要的应战是,怎样才能知道一个模型对不曾出现过的场景照旧具有很好的泛化才能。

在目前的实际中,数据集被随机划分为训练集和测试集,模型也相应地在这个数据集上被训练和评价。需求留意的是,在这种做法中,测试集拥有和训练集一样的数据分布,由于它们都是从具有相似场景内容和成像条件的数据中采样得到的。

但是,在实践运用中,测试图像或许会来自不同于训练时的数据分布。这些不曾出现过的数据能够会在视角、大小尺度、场景配置、相机属性等方面与训练数据不同。

一项研讨表明,数据分布上的这种差异会导致各种深度网络模型的准确率产生分明的下降 。当前模型对数据分布自然变化的敏感性能够成为自动驾驶等关键运用的一个严重成绩。

应战二:如何应用小规模和超大规模数据

我们需求面对的另一个重要的应战是如何更好地应用小规模训练数据。虽然深度学习经过应用大量标注数据在各种义务中都获得了宏大的成功,但现有的技术通常会由于只要很少的标记实例可用而在小数据情形中崩溃。这个情形通常被称为“少样本学习(few-shot learning)”,并需求在实践运用中细心思索。例如,一个家庭机器人被希冀可以完成这样的义务:向它展现一个新物体,且只展现一次,之后它便可以辨认这个物体。一个人可以很自然地完成这个义务,即便这个物体之后又被操作过了,例如一个毛毯被折叠起来了。如何赋予神经网络像人类这样的泛化才能是一个开放的研讨成绩。

另一个极端是如何应用超大规模数据有效地提高辨认算法的功能。对于像自动驾驶这样的关键运用,图像辨认的出错成本非常高。因此,研讨者们创造出了非常庞大的数据集,这些数据集包含了数以亿计的带有丰富标注的图像,并且他们希望经过应用这些数据使模型的准确度得到分明提高。

但是,目前的算法并不能很好地应用这种超大规模数据 。在包含了3亿张标注图片的JFT数据集上,各种深度网络的功能随着训练数据量的添加,仅仅呈现出对数级的提高(图一)。在大规模数据的状况下,继续添加训练数据带来的收益会变得越来越不分明,这是一个有待处理的重要成绩。



图一 目的检测在JFT-300M数据集上的功能随训练样例的增多呈对数倍的提高。x轴是对数尺度下的数据大小。y轴是目的检测的功能。左图运用COCO minival测试集上的mAP@[0.5,0.95] 目的,右图运用PASCAL VOC 2007测试集上的mAP@0.5目的 。红蓝两条曲线分别代表两种不同的模型。

应战三:片面的场景了解

除了这些与训练数据和泛化才能相关的成绩外,还有一个重要的研讨课题是片面的场景了解。除了辨认和定位场景中的物体之外,人类还可以推断物体和物体之间的关系、部分到全体的层次、物体的属性和三维场景规划。

获得对场景的更广泛的了解将会协助例如机器人交互这样的运用,由于这些运用通常需求物体标识和地位以外的信息。这个义务不只触及到对场景的感知,而且还需求对理想世界的认知了解。要完成这一目的,我们还有很长的路要走。片面的场景了解的一个例子为全景分割,见图二。



图二 (a)原图;(b)语义分割:辨认天空、草地、道路等没有固定外形的不可数材质(stuff),标记方法通常是给每个像素加上标签 ;(c)实例分割:分割人、动物或工具等可数且独立的物体实例(object instance),通常用包围盒或分割掩码标记目的;(d)全景分割:生成一致的、全局的分割图像,既辨认材质,也辨认物体。

应战四:自动化网络设计

最后一个值得一提的应战是使网络设计自动化。近年来,图像辨认这一范畴的重心从设计更好的特征转向了设计更新的网络架构。但是,设计网络架构是一个冗长乏味的过程,它需求处理大量的超参数和设计选择。调优这些元素需求有阅历的工程师花费大量的工夫和精神。

更重要的是,一个义务的最优架构和另一个义务的最优架构能够是完全不同的。虽然我们对自动神经架构搜索的研讨曾经末尾了,但它们照旧处于早期阶段并且仅适用于图像分类义务。当后方法的搜索空间非常狭窄,由于它们寻觅的是现有网络模块的部分最优组合(例如深度可分离卷积和恒等衔接),并且无法发现新的模块。目前还不清楚这些现有的方法能否足以胜任更复杂的义务。



图三 神经架构搜索算法的笼统图解。搜索策略首先从事前定义好的搜索空间

中选择一个架构A,这个构架接着被评价策略停止评价,并将评价的A的功能传递给搜索策略 。


虽然在图像辨认范畴存在上述诸多应战,但我们照旧置信深度学习在图像辨认范畴的宏大潜力。处理这些成绩的机会比比皆是,下面我们看看这其中的几个研讨方向:

方向一:整合常识

图像辨认范畴有一个重要的研讨方向是将常识融入到深度学习中。目前,深度学习次要作为一种纯粹的数据驱动技术被运用。在深度学习中,神经网络应用训练集中的标注样本学习一个非线性函数,之后在测试时则将这个学习到的函数作用到图片像素上。训练集之外的信息则一点也没有被用到。

相比之下,人类辨认物体不只基于曾经看到的样本,还基于他们有关真实世界的常识。人们可以对他们所看到的东西停止推理,以避免不合逻辑的辨认结果。此外,当遇到新的或超出预期的东西时,人类可以迅速调整他们的知识来解释这次的新阅历。如何在深度网络中获取、表示常识以及应用常识停止推理是一个应战。

方向二:几何推理

结合执行图像辨认和几何推理则是另一个有潜力的方向。图像辨认的次要模型只思索了二维外观,而人类可以感知三维场景规划以及推断其内在的语义类别。三维规划不只可以从双目视觉中获得,还可以从二维输入的几何推理中得到,就像人们看照片时所做的那样。结合图像辨认和几何推理为单方都提供了好处。

从几何推理中确定的三维规划可以协助在看不见的视角、变形和外观的状况下引导辨认。它还可以消弭不合理的语义规划,并协助辨认由其三维外形或功能定义的类别。例如,沙发中存在着宏大的类内外观差异。但是,它们拥有共同的属性,可以协助辨认它们。比如它们都有一个程度面用来坐,一个背面用于支撑。另一方面,辨认出来的语义可以规范化几何推理的解空间。例如,假如一只狗在一个场景中被辨认,它相应的三维结构应该符合狗的三维外形模型。



图四 从视频的两个不同视角的帧重建出复杂动态场景的点云

方向三:对关系建模

关系建模也有很大的研讨潜力。想要片面了解一个场景,对场景中存在的目的实体之间的关系和互相作用的建模非常重要(图四)。思索两张图片,每个图片都包含一个人和一匹马。假如一张展现的是骑着马的人,另一张展现的是踩着人的马,显然这两张图片表达了完全不同的意思。此外,经过关系建模提取的底层场景结构可以协助补偿当前深度学习方法因数据有限而出现的模糊不确定等成绩。虽然人们曾经在努力处理关系建模这个成绩,但这项研讨照旧是初步的,并且还有很大的探求空间。



图五 目的检测中的关系网络。



表示物体的表面特征,



表示物体的几何特征

方向四:学习如何学习

这里还有一个值得一提的方向是元学习,它的目的是学习学习过程。这个课题最近惹起了相当多的关注,而且神经架构搜索也可以被以为是它的一种运用。

但是,由于目前对学习过程建模的机制、表示和算法还比较初级,元学习的研讨仍处于早期阶段。以神经架构搜索为例,它只局限于现有网络模块的简单组合。元学习者无法捕捉到创作新网络模块所需的巧妙的直觉和敏锐的洞察力。随着元学习的提高,自动架构设计的潜力能够会被完全释放出来,进而得到远超手工设计的网络结构。



图六 元学习近期的停顿。自左至右分别为元学习的超参数优化 、神经架构搜索 、少样本图像分类 。

这是一个激动人心的从事图像辨认的时代,一个充满了推进范畴发展、影响将来运用的机会时代。我们热切盼望即将到来的提高,并等待这些新技术以深入而神奇的方式改变我们的生活。

本文作者:代季峰、林思德、郭百宁

你也许还想看



感激你关注“微软研讨院AI头条”,我们等待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

《绝对完美》 2020-6-5 19:30:54 来自手机 显示全部楼层
赞一个!
回复

使用道具 举报

kongdong 2020-6-6 22:09:27 显示全部楼层
元芳你怎么看?
回复

使用道具 举报

寒风2005 2020-6-8 08:57:17 显示全部楼层
啊啊啊啊啊啊啊啊啊啊啊
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies