AI图像辨认：人类看的是外形，算法看的是纹理

水井清 · 2019-9-5 11:38:49

人类会关注图中对象的外形，深度学习计算机系统所用的算法不一样，它会研讨对象的纹理。

图片中的动物轮廓是猫，但是猫披着大象皮肤纹理，将图片交给人辨认，人会说是猫，假如给计算机视觉算法处理，它会说是大象。德国研讨人员以为：人看的是外形，计算机看的是纹理。

这一发现相当风趣，但它证明计算机算法离人类视觉还有很远间隔。

当你看着一张猫的照片，轻松就能知道猫有没有条纹，不管照片是黑白照，有斑点，还是磨损或者褪色了，都能轻松辨认。不论宠物伸直在枕头背后；或者跳到工作台上，拍照时留下一片朦胧，你都能轻松辨认。假如用机器视觉系统（用深度神经网络驱动）辨认，准确率甚至比人还要高，但是当图片稍微新奇一点，或者有噪点、条纹，机器视觉系统就会犯傻了。

为什么会这样呢？

德国研讨团队给出一个缘由，这个缘由出人预料：人类会关注图中对象的外形，深度学习计算机系统所用的算法不一样，它会研讨对象的纹理。

德国的发现告诉我们人类与机器“思索”成绩时有着分明区别，也许还能揭示人类视觉退化的机密。

有大象皮肤的猫和时钟做的飞机

深度学习算法是怎样“工作”的呢？

首祖先类向算法展现大量图片，有的图片有猫，有的没有。算法从图片中找到“特定形式”，然后用形式来做出判别，看看面对之前从未见过的图片应该贴怎样的标签。

神经网络架构是根据人类视觉系统开发的，网络各层衔接在一同，从图片中提取笼统特点。神经网络系统经过一系列联络得出正确答案，不过整个处理过程非常奥秘，人类往往只能在理想构成之后再解释这个奥秘的过程。

美国俄勒冈州立大学计算机迷信家Thomas Dietterich说：“我们正在努力，想搞清到底是什么让深度学习计算机视觉算法走向成功，又是什么让它变得脆弱。”

怎样做？研讨人员修正图片，诈骗神经网络，看看会发生什么事。研讨人员发现，即便只是小小的修正，系统也会给出完全错误的答案，当修正幅度很大时，系统甚至无法给图片贴标签。还有一些研讨人员追溯网络，查看单个神经元会对图像做出怎样的反应，了解系统学到了什么。

德国图宾根大学（University of Tübingen）迷信家Geirhos指导的团队采用独特方法停止研讨。去年，团队发表报告称，他们用特殊噪点干扰图像，给图像降级，然后用图像训练神经网络，研讨发现，假如将新图像交给系统处理，这些图像被人歪曲过（相反的歪曲），在辨认歪曲图像时，系统的表现比人好。不过假如图像歪曲的方式稍有不同，神经网络就无能为力了，即便在人眼看来图像的歪曲方式并无不同，算法也会犯错。

对于这样的结果如何解释？

研讨人员深化思索：到底是什么发生了变化，即便只是加入很少的噪点，也会发生如此大的变化？

答案是纹理。当你在很长的工夫段内添加许多噪点，图中对象的外形基本不会遭到影响；不过即便只是添加大批噪点，部分地位的架构也会疾速歪曲。研讨人员想出一个妙招，对人类、深度学习系统处理图片的方式停止测试。

研讨人员故意制造存在矛盾的图片，也就是说将一种动物的外形与另一种动物的纹理拼在一同，制形成图片。例如：图片中的动物轮廓是猫，但是猫披着大象纹理；或者是一头熊，但它们是由铝罐组成的；又或者轮廓是飞机，但飞机是由堆叠的钟面组成的。

研讨人员制造几百张这样的拼凑图片，然后给它们标上标签，比如猫、熊、飞机。用4种不同的分类算法测试，最终它们给出的答案是大象、铝罐、钟，由此看出算法关注的是纹理。

Columbia大学计算机神经迷信家Nikolaus Kriegeskorte回复说：“这一发现改变了我们对深度前向神经网络视觉辨认技术的认知。”

乍一看，AI偏爱纹理而非外形有点奇异，但细细沉思却是有理的。

Kriegeskorte说：“你可以将纹理视为精细的外形。”

对于算法系统来说精细的尺寸更容易把握：包含纹理信息的像素数量远远超过包含对象边界的像素数量，网络的第一步就是检测部分特征，比如线条，边缘。

多伦多约克大学计算机视觉迷信家John Tsotsos指出：“线段组按相反的方式陈列，这就是纹理。”

Geirhos的研讨证明，仰仗部分特征，神经网络足以分辨图像。

另有迷信家开发一套深度学习系统，它的运转很像深度学习出现之前的分类算法——像一个特征包。

算法将图像分成为小块，接上去，它不会将信息逐渐交融，变成笼统高级特征，而是给每一小块下一个决议，比如这块包含自行车、那块包含鸟。再接上去，算法将决议集合起来，判别图中是什么，比如有更多小块包含自行车线索，所以图中对象是自行车。算法不会思索小块之间的空间关系。结果证明，在辨认对象时系统的精准度很高。

研讨人员Wieland Brendel说：“这一发现应战了我们之前的假定，我们之前以为深度学习的行为方式与旧模型完全不同。很分明，新模型有很大飞跃，但飞跃的幅度没有大家预料的那么大。”

约克大学、多伦多大学博士后研讨员Amir Rosenfeld以为，网络应该做什么，它实践做了什么，二者之间仍有很大差异。

Brendel持有相似观点。他说，我们很容易就会假定神经网络按人类的方式完成义务，忘了还有其它方式。

向人类视觉接近

目前的深度学习技术可以将部分特征（比如纹理）与全体形式（比如外形）结合在一同。

Columbia大学计算机神经迷信家Nikolaus Kriegeskorte说：“在这些论文中有一点让人感到稍稍有些奇异，架构虽然允许这样做，不过假如你训练神经网络时只是希望它分辨标准图像，它不会自动整合，这点在论文中得到分明证明。”

假如强迫模型忽视纹理，又会怎样呢？Geirhos想找到答案。团队将训练分类算法的图片拿出来，用不同的方式给它们“粉刷”，将适用纹理信息剔除，然后再用新图片重新训练深度学习模型，系统转而依赖更全局的形式，像人类一样愈加偏爱外形。

当算法这样举动时，分辨噪点图像的才能异样更强了，虽然在此之前研讨人员并没有专门训练算法，让它辨认歪曲图像。

对于人类来说，能够自但是然也存在这样的“偏爱”，比如偏爱外形，由于当我们看到一件东西，想确定它是什么时，靠外形判别是最有效的方式，即便环境中有许多干扰，异样如此。人类生活在3D世界，可以从多个角度观察，我们还可以借助其它感知（比如触觉）来辨认对象。所以说，人类偏爱外形胜过纹理完全合理。

德国图宾根大学研讨人员Felix Wichmann以为：这项研讨告诉我们数据产生的成见和影响远比我们以为的大得多。之前研讨人员也曾发现相反的成绩，例如：在面部辨认程序、自动招聘算法及其它神经网络中，模型过于注重预料之外的特征，由于训练算法所用的数据存在根深蒂固的成见。想将这种不想要的成见从算法决策机制中剔除相当困难，虽然如此，Wichmann以为新研讨证明剔除还是有能够的。

虽然Geirhos的模型专注于外形，不过假如图像中噪点过多，或者特定像素发生变化，模型照旧会失败。由此可以证明，计算机算法离人类视觉还有很远间隔。在人类大脑中，能够还有一些重要机制没有在算法中表现出来。Wichmann以为，在某些状况下，关注数据集能够更重要。

多伦多大学计算机迷信家Sanja Fidler认同此观点，她说：“我们要设计更聪明的数据和更聪明的义务。”她和同事正在研讨一个成绩：如何给神经网络分派第二义务，经过第二义务让它在完成主义务时有更好表现。遭到Geirhos的启示，最近她们对图像分类算法停止训练，不只让算法辨认对象本身，还让它辨认对象轮廓（或者外形）中的像素。

结果证明，执行常规对象辨认义务时，神经网络越来越好，自动变得越来越好。

Fidler指出：“假如指派单一义务，你会特别关注某些东西，对其它视而不见。假如分派多个义务，也许能感知更多。算法也是一样的。”

当算法执行多个义务时，它会关注不同的信息，就像Geirhos所做的“外形纹理”实验一样。

美国俄勒冈州立大学计算机迷信家Thomas Dietterich以为：“这项研讨是一个激动人心的打破，深度学习到底发生了什么？我们对此有了更深的了解，也许研讨还能协助我们打破极限，看到更多东西。正因如此，我很喜欢这些论文。”

原文链接：https://www.quantamagazine.org/where-we-see-shapes-ai-sees-textures-20190701/

译者：小兵手

本文由 @36氪授权发布于人人都是产品经理，未经作者答应，制止转载

题图来自Unsplash，基于CC0协议

嘉和房地产小古 · 2019-9-5 11:47:39

到底是轮廓还是纹理，还是取决于模型

aqwyhnb · 2019-9-5 11:48:45

全体部分模糊（笼统） looks like

鳕蘩 · 2019-9-5 11:49:29

这是篇极好的文章，谢谢！

罗轻寒 · 2019-9-5 11:58:45

分享了

lysz94 · 2019-9-5 12:06:47

分享了

vantiar46 · 2019-9-5 12:07:31

分享了

我剪剪剪 · 2019-9-5 12:18:03

分享了

360306199 · 2019-9-5 12:27:15

分享了

康熙吧徐熙娣 · 2019-9-5 12:32:16

分享了

		自动登录	找回密码
密码			立即注册

AI图像辨认：人类看的是外形，算法看的是纹理

本帖子中包含更多资源

大神点评18

最近发表

公社版块

关注我们