找回密码
 立即注册
搜索

机器学习如何自创人类的视觉辨认学习?让我们从婴幼儿的视觉学习说起

雷锋网 AI 科技回复按:当只需求把大规模标注图像数据库塞给深度神经网络就可以得到高准确率的物体分类模型之后,有很多研讨人员末尾思索更深化的成绩:人类的视觉辨认学习过程是怎样的?以及既然人类视觉系统与计算机视觉系统之间表现出了种种不同,我们能否研讨这些不同的来源?这能否能给我们带来新的启示?

「frontiers in Psychology - Cognitive Science」(心思学研讨前沿 - 认知迷信)杂志的一篇文章就引见了人类幼儿的视觉学习历程的相关研讨。与深度学习大大不同的是,人类幼儿正是靠大批物体、大批面容的反复多视角观察培育出了波动、通用的物体辨认才能。雷锋网 AI 科技回复全文编译如下。


视觉学习同时依赖于算法和训练材料。这篇文章思索了婴幼儿以自我为中心视觉的自然统计特性。这些用于人类视觉目的辨认的自然训练集与输入机器视觉系统的训练数据有很大的不同。比起经过平均阅历一切事情来停止学习,幼儿阅历的分布倾向分明:有很多事情反复发生。虽然从全体上看变化很大,但个体对事物的看法是按照特定的顺序来体验的——从每时每刻变化的缓慢、流利的视觉,到场景内容发展有序的过渡。我们以为,婴幼儿倾向分明、有序、有倾向的视觉体验是一种训练数据,它使人类学习者可以开发出一种方法来辨认一切事物,包括随处可见的实体和很少见到的实体。人类和机器学习研讨人员将真实世界统计的学习数据结合起来思索,似乎有能够为这两个学科带来提高。

引言


学习是人类认知的核心属性,是人工智能长期追求的目的。我们正处于在人类和人工智能范畴产生出新见解的临界点 (Cadieu et al., 2014;Kriegeskorte, 2015;Marblestone et al., 2016),这些见解将经过明白地将人类认知、人类神经迷信和机器学习的提高联络起来而更快地显现出来。「Thought-papers」呼吁机器学习的研讨人员应用来自人类和神经的灵感来建造像人一样学习的机器(例如Kriegeskorte, 2015;Marblestone et al., 2016),并呼吁人类认知和神经迷信的研讨人员把机器学习算法作为关于认知、视觉和神经机制的假设(Yamins and DiCarlo, 2016)。这种新萌生出的兴味的推进力之一是深度学习网络在处理非常困难的学习成绩方面获得了宏大的成功。这些成绩是以前无法处理的(例如Silver et al., 2016)。在神经感知器和衔接主义网络的谱系中,深度学习网络将原始的感官信息作为输入,并运用多层的分层组织结构,每一层的输入作为下一层的输入,从而构成特征提取和转换的级联。这些网络特别成功的一个运用是机器视觉。这些卷积深度学习网络(CNNs)的分层结构和空间汇聚不只产生了最先进的图像辨认技术,而且经过特征提取的分层组织来完成这一功能,这种特征提取近似于人类视觉系统皮层的功能(Cadieu et al., 2014)。

在人类认知方面,头戴式摄像机和头戴式眼球追踪技术的最新停顿,曾经在自然学习环境方面获得了令人兴奋的发现。人类日常视觉环境的结构和规律——尤其是婴儿和儿童的视觉环境——一点也不像最先进的机器视觉中运用的训练集。机器学习的训练图像是由成人拍摄并组织起来的照片。因此,他们倾向于成熟系统的「看起来有用」的东西,反映的是感知发展的结果,而不一定是驱动这种发展的场景(例如,Fathi et al., 2011;Foulsham et al., 2011;Smith et al., 2015)。真实世界的感知体验并不是由摄像机来框定的,而是与身体在世界上的活动联络在一同的。因此,学习者对视觉环境的视角是高度选择性的,取决于瞬间的地位、空间中的方位、姿态以及头部和眼睛的运动(参见Smith et al., 2015., 2015, 待审)。图1显示了以自我为中心的视域的选择性:并不是环境中的一切内容都在婴儿的视域范围中;除非婴儿转过头去看,否则看不到猫、窗户、时钟、站着的人的脸。感知者的姿态、地位、运动、兴味和社会互动使视觉信息的观点产生系统性倾向。


图1 自我中心视域的选择性。暗影指示的视场对应婴儿头部视角。

随着个人长大,对不同类别的视觉体验会产生倾向。从而使一切这些——姿态、地位、动作、兴味——都发生了宏大的变化。特别是在生命的前两年,每一项新的感官运动的成就——翻身、伸展、匍匐、行走(以及更多)——都会为新的视觉体验类别打开大门。因此,人类视觉系统的发展不是经过成批的处理,而是经过一套系统、有序的视觉体验课程来完成的,这套课程是经过婴儿本身的感觉运动发展而设计的。以自我为中心的视觉系统为研讨人员提供了直接访问这些发展遭到制约的视觉环境属性的途径。在这里,我们思索了真实世界视觉学习数据集的新发现与机器学习的潜在相关性。

有人能够会问,鉴于当代计算机视觉的所获得的成功,机器学习者为什么要关怀孩子们是如何做到这一点的呢?Schank 是人工智能早期的一位创始性人物,他写道:「我们希望可以开发出一个可以学习的程序,就像一个孩子所做的那样……」(Schank, 1972)。这似乎照旧是自主人工智能的一个合适目的。最近,在一个大型的机器学习会议上,Malik(2016年,公家交流,参见Agrawal et al., 2016)告诉想为机器学习下一个大的提高做预备的年轻学习者「仔细学习发展心思学,然后运用这些知识构建新的更好的算法。」有鉴于此,我们从一个例子末尾,阐明为什么机器学习者应该关注儿童学习环境中的规律:有充分的证据表明,一个两岁儿童在视觉学习方面的才能是当代计算机视觉中尚无法匹敌的(见Ritter et al., 2017)。

两岁小孩能做什么


人类可以在不同条件下下辨认多种类别的大量物体实例(Kourtzi and DiCarlo, 2006;Gauthier and Tarr, 201)。辨认一切这些实例和类别需求视觉训练;人们必须曾经见过狗、汽车和烤面包机才能在视觉上辨认这些类别的实例(例如,Gauthier et al., 2000;Malt and Majid, 2013;Kovack-Lesh et al., 2014)。这对人类和计算机视觉算法都适用。但目前儿童的发展轨迹和算法有很大的不同。对于儿童来说,早期学习是缓慢且充满错误的(例如,MacNamara, 1982;Mervis et al., 1992)。的确,1-2 岁的儿童在视觉目的辨认义务中的表现能够比表现最好的计算机视觉算法要差一些,由于 1-2 岁儿童在停止类别判别时具有许多笼统过度和笼统不足的特点,有时在视觉拥堵的场景中完全不能辨认已知的物体(Farzin et al., 2010)。但是,两岁之后状况就不一样了。此时,孩子们可以从一个实例推断出整个类别。只需给定一个新类别的实例及其称号,两岁的儿童就会立刻以成人的方式概括该称号。例如,假如一个两岁的孩子遇到第一个拖延机——比如说,一个绿色的 John Deere 拖延机在地里工作——而当听到它的名字,孩子从这一点会看法一切的各种各样的拖延机——红色的 Massey-Fergusons,古董拖延机,割草机——但不是发掘机或卡车。这种现象在发展文献中被称为「外形倾向」,是在儿童的自然类别学习中观察到的「单样本」学习的一个例子。这曾经在实验室中得到了复制和广泛研讨(例如,Rosch et al., 1976;Landau et al., 1988;Samuelson and Smith, 2005)。

研讨人员如今曾经非常了解「外形倾向」及其发展,下面罗列一些相关研讨成果。外形倾向的出现与儿童物体称号词汇量的疾速增长是同时发生的。这种倾向是关于感知到的事物的外形,当儿童可以从次要部分的关系结构中辨认出已知的物体时,这种倾向就会出现(Gershkoff-Stowe and Smith, 2004)。外形倾向本身是经过对一组初始对象称号的缓慢学习而习得的(据估计,其中可以包括 50 到 150 个学习到的类别, Gershkoff-Stowe and Smith, 2004)。在实体游戏的背景下,对基于外形的对象类别辨别停止早期强化训练,会导致 1-2 岁的儿童比普通儿童更早出现外形倾向,而且这些儿童词汇量的增长速度也会更早 (Samuelson, 2002;Smith et al., 2002;Yoshida and Smith, 2005;Perry et al., 2010)。外形倾向不只与儿童对物体称号的学习有关,还与对的物体操作有关 (Smith, 2005;James et al., 2014a),并随着儿童从三维外形的笼统表征中辨认物体的才能逐渐加强(Smith, 2003,2013;Yee et al., 2012)。学习言语有困难的儿童——晚说话者、有特殊言语妨碍的儿童、自闭症儿童——不会构成激烈的外形倾向(Jones, 2003;Jones and Smith, 2005;Tek et al., 2008;Collisson et al., 2015;Potrzeba et al., 2015)。简而言之,典型的长大中的儿童在缓慢地学习一组对象类别称号的过程中,也会学习到如何以某种方式直观地表示对象外形。这种方式使他们可以在只提供一个新类别实例的状况下,估计出一个新对象类别的边界。最先进的机器视觉运作方式则不同。没有哪种机器学习的方法可以改变其学习的本质;相反,每一个需求学习的类别都需求大量的训练和例子。

区别在哪里?一切的学习都依赖于学习机制和训练数据。幼儿是非常成功的视觉分类学习者;因此,他们的外部算法必须可以应用日常阅历中的规律,不管这些规律是什么。因此,了解婴儿的日常视觉环境——以及他们如何随着发展而变化——不只要助于揭示相关的训练数据,而且还提供了有关学习的外部机制的信息。

发展变化的视觉环境


对婴儿头部摄像机获得的数据停止研讨,非常清楚地表明:人类视觉学习的训练集在长大过程中发生了很大的变化。图 2 显示了头摄像头捕获的示例图像。一个例子触及到婴儿对周围人的以自我为中心的视角。对婴儿在日常生活中采集的大量头部相机图像停止分析(Jayaraman et al., 2015,2017;Fausey et al., 2016)研讨表明,人物总是出如今婴儿头部相机图像中,重生儿和两岁儿童的这一比例是相反的。这并不奇异,由于不能把婴幼儿单独留下。但是,在头部摄相机的图像中,年龄较大和较小的婴儿的详细身体部位是不一样的。对于3个月以下的婴儿来说,人脸无处不在,在每小时的视觉体验中,人脸占15分钟以上。此外,这些脸一直接近年幼的婴儿(在间隔头部摄像机2英尺以内),并显示出两只眼睛。但是,当婴儿接近 1 岁生日时,头部摄像机记录下的面部图像曾经很少见了,在醒着的每一个小时里,只要大约6分钟的工夫有面部出现。相反,对于 1- 2 岁的孩子来说,他们可以看到其别人的手(Fausey et al., 2016)。这些手次要(超过85%的手的图像中)会接触和操作一些物体。这种婴儿面前视觉场景内容的变化是由他们的感觉运动才能的变化、父母相应的行为以及婴儿兴味的变化所驱动的。在一切这些互相联络的力的作用下最终产生了用于视觉学习的数据。这些数据会发生变化——从许多全景式和近间隔的面孔到许多作用于物体的手。我们激烈怀疑这个顺序——早期的面孔,后来的物体——这关系到人类视觉物体辨认如何以及为什么以这种方式发展。


图2 头部相机的样本捕捉了三个不同年龄的婴儿的图像。

在构型人脸处理中,「沉睡效应」表现了早期密集的人脸视觉体验的重要性。Maurer et al. (2007)将沉睡效应定义为一种在发展后期出现的永世性缺失,但这是由于早期体验不足形成的。一个例子触及婴儿在 2 至 6 个月大时因后天分白内障而丧失早期视力输入的状况。根据多项视力发展目的(包括敏锐度、对比敏感度),这些婴儿在白内障摘除后,末尾追逐上同龄人,呈现出视力发展的典型轨迹。但随着年龄的增长,这些个体在人类视觉面部处理的成熟特征之一「构型面部处理」(configural face processing)中表现出永世性的缺失。构形处理是指基于一种相似格式塔的表征,它压制个体特征信息对个面子孔停止区分和辨认的过程。这是人类视觉处理的一个方面,直到 5 - 7 岁时才末尾出现(Mondloch et al., 2002)。Maurer et al. (2007)假设,早期的阅历保存和/或建立了神经基质,用于较晚发展的面部处理才能(另见Byrge et al., 2014)。我们揣测,婴幼儿密集的近间隔、全视角面部体验是后天分白内障婴幼儿早期体验缺失的部分。由于这些阅历与婴儿本身不断变化的倾向和感觉运动技能有关,所以当婴儿的白内障后来被摘除时,这些阅历不会被他们的社交伙伴带来的阅历所取代。由于到那时,婴儿本身的行为和自主性将产生非常不同的社交互动。因此,根据假设,早期密集的面部体验对于建立或维持大脑皮层回路能够是必要的,而大脑皮层回路支持后期出现的专门的面部处理。

有能够早期的面部体验只对面部处理重要,这是针对特定范畴的结果的特定范畴的体验。但是,我们有理由提出另一种观点。人类视觉皮层经过一系列特征提取和转换的层级系统构建我们所看到的世界(例如, Hochstein and Ahissar, 2002)。一切的输入都在相反的低层和一切较高的表示层中经过并停止调优——面孔、对象、字母——在低层的活动上停止计算。这样,对人脸的学习和对非人脸对象类别的学习都依赖于相反底层的精度、调优和激活形式。较低层次的简单视觉辨认在较高层次的视觉过程中具有深远的普遍性(例如,Ahissar and Hochstein, 1997)。来自人类婴儿的头部摄像机图像表明,较低层次的最后调和谐发育是经过视觉场景完成的,其中包括许多闭着眼睛的面孔。正由于如此,儿童当前对非人脸物体特征的学习和提取至少在一定程度上是由较低层次的早期调谐构成的,这种调谐严重侧重于近间隔人脸的低层次视觉特征。

虽然 Maurer et al. (2007)运用「沉睡效应」一词来指代阅历的缺失,但早期视觉体验对后来发展的作用同时具有消极和积极两方面的意义。个人早期阅历中的结构规律性会对层次化的神经系统停止训练和调优,这样做能够建立潜在的隐藏才能,而这些才能对当前的学习起着至关重要的作用。人类发展的相关研讨提供了许多目前无法解释的例子,它们阐明了过去的学习对将来的学习有多么深远的影响。例如,经过点阵列视觉辨认的准确性可以预测日后的数学成绩(Halberda et al., 2008),经过幼儿的外形倾向可以预测学习字母的才能(Augustine et al., 2015; 参见Zorzi et al., 2013)。与人类视觉系统相似,深度学习网络是「深度」的,由于它们包含层叠的层次结构。这种结构意味着,与人类视觉相似,在一个义务中构成的早期层表征将被重用。实际上它可以对在其他学习义务同时产生消极和积极的影响。对于这种分层学习系统,有序训练集的计算价值还没有得到很好的了解。从面部到手触物体的受限、但逐渐发展的训练集的整个组合,能否就是解释 2 岁儿童只需求一个或几个实例就可以学会分类一种新的非面部物体的部分缘由呢?

幼儿如何触类旁通


对 2 岁婴儿的头部相机图像的分析也告诉我们,这些图像中实体的分布既不是世界上实体的随机样本,也不是这些以自我为中心的图像中平均分布的实体。相反,阅历是极其右倾的。婴儿头部相机图像中的物体是高度选择性的——很少有哪个种类是普遍的,大多数物体是很少出现的。那么,这里有一个关键成绩:经过广泛地(能够是缓慢地)学习某些东西,如何产生一个可以疾速学习一切类别、包括一些不常见事物的学习系统呢?幂律分布既体如今婴儿对独特个面子孔的体验(Jayaraman et al., 2015),也体如今婴儿对物体的体验(Clerkin et al., 2017)。在婴儿出生后的一整年里,他们看到的面孔高度集中在多数几个人上,其中最频繁出现的三个人大约占头部相机图像中一切面孔的 80%。异样,婴儿视觉环境中的物体分布也极其右偏,一些物体类别比其他类别更频繁(Clerkin et al., 2017)。图 3 显示了 8- 10 个月大的婴儿在 147 次不同的餐桌工夫(Clerkin et al., 2017)中,头部相机图像分析中常见物体类别的分布状况。很少有对象类别是普遍存在的,而大多数物体是很少出现的。风趣的是,最常见的物体类别的称号也是很早就获得的,但要在 8 到 10 个月,也就是第一个生日之后。这表明,早期密集的视觉体验为当前学习这些特定物体的标签做好了预备。


图3 8-10个月大婴儿头部相机图像中常见物体类别的分布(Clerkin et al., 2017)。对象类别根据其获取年龄停止着色(Fenson et al., 1994):第一名词(对象称号为至少50% 16个月婴儿的接受词汇),早期名词(对象称号不是第一名词和至少50% 30个月儿童的产出性词汇),以及后来的名词(一切其他对象称号)。

极右偏态分布的一个能够优势是,相对较小的个体对象和对象类别的普遍性,使婴儿可以定义学习的初始目的集(Clerkin et al., 2017;参见Salakhutdinov et al., 2011),然后掌握与在许多不同的观看条件下辨认这些多数物体相关的视觉不变性。这能够是关键的一步——完成对一部分事物的学习——从而掌握从有限的阅历中疾速学习的通用才能,例如 2 岁儿童的外形偏向(Smith, 2013)。这种对一部分事物的完全了解能够不只依赖于阅历的数量,而且还依赖于阅历在工夫上的持续。当一个物体被长工夫观察时,与该物体有关的视网膜信息必然会不断变化,显示出相关的转换和辨认的不变性,这种不变性可扩展到辨认新事物(Földiák, 1991;Wiskott and Sejnowski, 2002;Li and DiCarlo, 2008)。

控制豢养雏鸡的研讨(Wood, 2013;Wood and Wood, 2016)为这一观点提供了一个论证:物体的缓慢变化转换为小鸡对物体外形的泛化学习提供了足够的输入。在这些研讨中,重生的雏鸡在严厉控制的视觉环境中长大,给它们观察移动和旋转的单个物体。经过一系列的控制豢养实验,研讨人员们实验了不同的运动和旋转特性。结果表明,随着工夫的推移,单个物体的观察阅历就足以让小鸡建立健壮的物体辨认技能,可以辨认这个物体的未见过的视角以及从未见过的其它物体(Wood, 2013,2015)。控制豢养实验(Wood, 2016;Wood et al., 2016)也指出了小鸡学习的两个次要限制要素:缓慢和流利。观察视角的变化需求缓慢而颠簸地停止,并遵照物理对象在世界上的时空属性。不过,鸡的大脑和视觉系统与人类非常不同,因此小鸡数据的相关性不是人类视觉系统的动物模型。相反,这些发现的相关性在于,它们清楚地显示了单个视觉对象的工夫上持续的体验中可用的信息。这能够也暗示了某种目前仍未开发出的算法,可以从对极少(或许只要一个)对象的扩展视觉体验中迅速学会辨认对象类别。

自我生成的视觉体验


要测试幼儿对物体称号的了解程度,一种方法是向他们讯问不同的物体称号,看他们表现出怎样的爱好,另一种方法是给他们展现一个物体,看他们能否会自发地说出它的名字。因此,幼儿的对象称号词汇是衡量他们视觉辨认对象才能的一个很好的目的。在一岁之前,对象称号的学习末尾得非常缓慢,儿童对单个对象称号的知识逐渐增长,最后以错误为特征(例如, MacNamara, 1982;Mervis et al., 1992, 参见Bloom, 2000)。大约 18 到 24 个月(不同的孩子学习工夫不同),学习特性和学习速度会发生变化。大约 2 岁时,对象称号的学习变得似乎很容易,由于典型的长大中儿童只需求非常少的阅历,通常只需求一个命名对象的单一阅历,就而已适当地将称号推行到新实例(Landau et al., 1988;Smith, 2003)。从缓慢的渐进式学习向疾速的几乎「一次性」学习的转变反映了学习本身所带来的外部机制的变化 (Smith et al., 2002)。但是,越来越多的证据表明,用于学习的视觉数据也发生了宏大的变化。

对于 8-10 个月大的婴儿来说,头部摄像头拍摄的场景往往杂乱不堪(Clerkin et al., 2017)。12 个月后的场景照旧常常是杂乱的,但是这些场景被一系列延续的场景打断。在这些场景中只要一个物体在视觉上占主导地位(例如Yu and Smith, 2012)。场景构成的变化是幼儿动手才能发展的直接结果。早在一岁之前,婴儿就会伸手拿东西,但他们缺乏长工夫游玩所需求的躯干波动性(Rochat, 1992;Soska et al., 2010)。他们缺乏旋转、堆叠或插入对象的动手才能(Pereira et al., 2010;Street et al., 2011)。此外,他们最感兴味的是把物体放进嘴里,这并不是理想的视觉学习。因此,他们常常从远处看这个世界。而从远处看,这个世界是许多杂乱的东西。在他们的第一个生日之后,这一切都改变了。幼儿在积极地处理物体时,并会近间隔地观察它们。这种动手活动会促进更高级的视觉对象记忆和区分(Ruff, 1984;Soska et al., 2010;Möhring and Frick, 2013;James et al., 2014a)以及对象名字学习 (例如Yu and Smith, 2012;LeBarton and Iverson, 2013;James et al., 2014a)。

幼儿的视觉系统生成的画面视角有三个特性,能够是这些提高的基础。

首先,幼儿对物体的处理创造出的视觉场景比年岁更小的婴儿(Yu and Smith, 2012;Clerkin et al., 2017)和成人(Smith et al., 2011;Yu and Smith, 2012)的都要整洁。幼儿胳膊短,身体前倾,细心看着手中的东西。在此过程中,它们创建一个对象填充视野的场景。这处理了许多基本成绩,包括分割,竞争,以及参考对象不明。一项研讨(Bambach et al., 2017)直接比较了一个常用的 CNN(Simonyan and Zisserman, 2014)在给定的由幼儿和成人头部摄像机图像组成的训练集(相反的真实世界事情)中学习辨认物体的才能。该网络不提供待训练对象的裁剪图像,而是残缺的场景,没有目的对象在场景中的相关地位信息。根据幼儿阶段画面学习到的系统比成人阶段的更健壮,并且表现出更好的泛化才能。这与当代计算机视觉的实际相吻合,计算机视觉的算法通常会在裁剪的图像或场景中加入边框,以指定要学习的对象。幼儿做到这一点的方式则是借助本人的手和头。

初学走路的孩子处理物体的第二个特点是,他们会生成单一物体的可变性很强的图像。图 4 显示了一个 15 个月大的幼儿在游玩时生成的单个对象的视图(Slone et al., 审稿中)。在这项研讨中,头戴式眼球追踪器被用来捕捉第一人称场景中的固定物体。一种单一的算法测量,掩膜取向(mask orientation,MO)被用来捕捉婴儿注视的物体的逐帧图像变异性:MO是图像中物体像素最细长轴的方向。至关重要的是,这不是一个面向真实世界或对象外形的方法,也不以任何直接的方式触及的外形特性远端刺激,而是经过衡量近端图像属性的视觉系统来确定远端对象。次要结果是:15个月大的婴儿在玩玩具时所产生的MO变化量可以预测在6个月后,也就是21个月大的时分婴儿掌握物体称号词汇量。简而言之,更大的差异性导致更好的学习。在一项相关的计算研讨(Bambach et al., 2017)中,研讨人员们向 CNN 提供了一组训练集,这些训练集由父母或孩子佩戴的头部摄像机拍摄的共同游玩事情的图像组成。相对于从父母佩戴的相机中看到的相反物体的变化较小的图像,从儿童佩戴的相机中看到的变化较多的物体图像导致了更强的学习才能和学习泛化才能。这些发现应该会改变我们对一次性学习的看法。幼儿对一个物体的视觉体验不是单一的体验,而是对同一事物的一系列非常不同的观察。这样的一系列对单个实例的不同观察能否引导年轻的学习者运用生成准绳来辨认某个类别一切成员(例如,一切的拖延机)?


图4 一个15个月大的婴儿在游玩时用头部照相机捕捉到的单个物体的样本图像。

幼儿自生成对象视图的第三个属性是他们倾向于(Pereira et al., 2010)让大多数对象的长轴垂直于视野(简单的握持方法),也会让(虽然更弱)长轴平行于视野(最简单的将一个对象插入另一个对象的方法)。幼儿经过旋转物体的主轴,在这些喜欢的视图之间转换。这些不同的视角和旋转突出了非偶然的外形特征。由手握物体的方式所产生的不同视角能够有一个视觉来源,由于当幼儿握着并查看透明球体中包含的物体时,这种偏向会更强(James et al., 2014b)。这样一切的视图对于手来说都是等势的。Wood (2016)在对小鸡的研讨中提出了平滑性和缓慢变化的约束条件,但是,无论是正确的分析还是正确的实验都没有将这些自生成的物体视图的属性与这些约束条件停止比较。但是,思索到物理世界和物理身体的时空限制,我们完全有理由置信,幼儿会服从自生成的视图。

幼儿的全身视觉训练方法创造了独特的视觉训练集,这些训练集的结构似乎是为了教授一门非常详细的课程:独立于视觉的三维外形辨认。单个对象在图像中是孤立的,由于它填充了图像。不同的视图经过工夫上的接近和手的接触互相衔接,这提供了一个强有力的学习信号,表明两个不同的视图属于同一个对象。视图的动态结构突出显示了非偶然的外形属性。这是视觉目的辨认中的一个难题,可以经过数据本身的结构来处理。

幼儿长大和机器学习之间的互相自创



婴幼儿的视觉环境会随着发展而变化,他们会将不同的学习义务停止分类和排序,这样当前的学习就可以建立在之前在不同范畴学习的基础上。在每个范畴中,训练集集中于有限样本的个人实体—— 2 到 3 个人的脸,一个小的普遍的对象集,一个对象的多个视图——但这些阅历构建了如何辨认和了解许多不同种类的东西的通用知识。这不是从有限的数据中学习的状况;数据是宏大的——关于你母亲的脸,关于你的吸嘴杯的一切视图。这些训练集的全体结构与计算机视觉中常用的训练集有很大的不同。它们能成为更弱小的机器学习的下一个提高的一部分吗?

机器学习没有采用发展的多阶段方法停止训练,但曾经获得了宏大的提高。有争议的是,不需求这种辅导和结构化课程的学习机能否更弱小。理想上,运用有序训练集(Rumelhart and McClelland, 1986)并在学习过程中添加难度的衔接主义言语发展实际被激烈批判为作弊(Pinker and Prince, 1988)。但是,被批判的观点从发展的角度看是正确的(Elman, 1993)。目前有一些机器学习方法(例如课程学习和迭代教学)试图经过有序和结构化的训练集来优化学习(例如Bengio et al., 2009;Krueger and Dayan, 2009)。这些努力并没有过多地担心婴儿自然学习环境中的结构;这能够是人类和机器学习的有益结合。但是,婴幼儿学习的数据不只是在发展过程中有序陈列的,而且是由学习者本人的活动实时动态构建的。输入在任何时辰都取决于学习者的当前形状,并且会随着学习者外部系统作为学习功能的变化而实时变化。这样,在任何工夫点提供的信息能够是最合适当前学习形状的,在正确的工夫提供正确的信息。目前机器学习的一种相关方法是在学习过程中对深度网络中的留意力停止训练,使选择的学习数据随着学习的变化而变化(Mnih et al., 2014;Gregor et al., 2015)。另一种方法是在学习过程中应用猎奇心将留意力转移到新的学习成绩上(Oudeyer, 2004;Houthooft et al., 2016; 参见Kidd and Hayden, 2015)。我们如何将发展洞察力融入机器学习?Ritter et al. (2017)以机器学习者为研讨对象的「认知心思学」实验,研讨了机器学习者如何从缓慢渐进的学习者长大为具有儿童所表现出的外形倾向的「一次性」学习者。这些实验可以操纵结构的训练集(见Liu et al., 2017)以及算法。这些算法用于了解早期学习如何限制后期学习,以及一点点的学习如何泛化,大量的学习对比很多事情却只学一点。

当然,没有人能保证,经过追求这些理念,机器学习者就能建立弱小的算法,博得当前的竞争。但是,这样的努力似乎一定会产生新的学习准绳。这些准绳——以算法方式表达——将构成了解人类学习和智力的一大提高。

via frontiersin.org,雷锋网 AI 科技回复编译

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

倾城小熊 2019-2-18 17:28:57 显示全部楼层
纯粹路过,没任何兴趣,仅仅是看在老用户份上回复一下
回复

使用道具 举报

为毛老子总也抢不到沙发?!!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies