找回密码
 立即注册
搜索

为什么 AI 犯的错有时会很“瘆人”?


为什么 AI 犯的错有时会很“瘆人”?

文 | 木子Yanni



科技社会的演进史,其实是场和平。
数十万年前,智人艰难跑赢自然界一切生物,站上食物链顶端,由此,引发了一场旷日持久的技术战:解放肉身
文字,解放了嘴;汽车,解放了腿;键盘,解放了脑。
冷静,我说的是代码和人工智能。
这场技术的绝后成功,引发的不止有人类对 AI 的迷狂,还有宏大的风险:人工智能的间歇性失控,近看,是智商和情商不足;远看,危机四伏。
你可以在智能音箱脑残时,拍腿笑骂它是个十足的智障,却无法在自动驾驶系统脑残时,异样一笑了之。
细细想来,人类可以给 AI 解释清楚很多事,比如跳棋、围棋、五子棋;道路千万条、安全第一条。
可还有更多解释不清的事。
比如为什么拨动气压计刻度盘却不下雨,假如当初尼奥选择了蓝色药丸,接上去能够会发生什么?
对人工智能来说,拥有回答这些「为什么」的才能,至关重要。


(一) 光头的诱惑



去年年底,人工智能出了个大糗。
2020 年 10 月,苏格兰足球冠军联赛即将举行。但是,受新冠疫情影响,苏格兰正处于严厉的隔离政策下,球迷无法到场观看。
为了处理这个成绩,比赛前一周,因弗内斯俱乐部引入了一套全新的 AI 智能转播系统,内置带有 AI 追踪技术的摄像头,可以自动追踪足球,解放了以往需求在赛场里来回狂奔的摄像师。
这样一来,球迷坐在家里,只需花点小钱就能乐享实时赛况,不必由于疫情而被迫得到一个成年人难得的愉快。
只是没想到,直播第一天,就出了不测。
比赛刚末尾,一切正常,单方球员在中场等待门将开球,AI 渐渐将镜头拉远,静待赛点出现。


可随后,AI 只是多看了一眼站在球场边的“光头”边裁,直播画面就朝着奇异的方向去了。
AI 将边裁锃亮的脑袋认成了足球,失职尽责停止着赛事直播:边裁走到哪儿,AI 的镜头就转到哪儿。


哪怕边裁离球万里,AI 也会不顾一切调转镜头,失职尽责地追踪边裁。。。的光头。
场外的万千球迷,本来都在家专心致志的观赛,很快,他们就察觉出不对劲:屏幕正中间的最佳地位,永远闪着一颗光头,至于球到了哪儿,又被传给了谁,不知道。
这就尴尬了。
察觉到这一异常,技术人员迅速手动修正,试图纠正人工智能的错误认知:小子,你看清楚了,这个不是球,是裁判的光头,那个又白又圆、飞来飞去的才是,别再搞错了啊。
很快,直播恢复正常,直到...边裁再次入镜,一切回到最后的终点:AI 又将边裁的头当成了足球,持续追踪...
这下可好,人工干涉也无法阻止这场“光头的诱惑”,即便多次手动修正,奈何 AI 偏有本人的想法,固执以为边裁的头,就是足球。


原来当年传唱的惊悚校园歌谣,是有理想根据的:XX 的头,像皮球…
这下,直播变得风趣了:90 分钟的比赛,其中绝大部分工夫,手握啤酒在家观看的球迷们,只能看到边裁的光头停在屏幕地方,至于球在哪儿、有没有进?看不见。
好在,这场比赛最终停在了 1:1,不至于让球迷太过心塞。
比赛终于结束了,我们一同近间隔看看这位全程尊享 C 位的光头边裁:嗯,是个诱人的靓仔。


欣赏完边裁英俊的外貌,我们回到这起直播事故,思索一下,为什么人工智能的小眼睛,非得把头当成足球?
好歹是业界知名培训班“深度学习”毕业的,怎样一副学废了的样子?


(二) 机器学习出了什么成绩?



传统的计算机程序,一切参数都是透明的,可到了人工智能时代,变化来了。
神经网络是个黑盒子,数据从这头出来,那头出来,至于参数该如何设置,中间会发生什么,执行了哪些操作,很难说出个子丑寅卯。
网传一种说法,哈士奇和狼的相似度高达 99%,剩余的 1%,在于智商。
为了精准区分二者,华盛顿大学用深度神经网络训练了一个模型,经过测试,效果相当不错,辨认准确率高达 90%。


但团队在进一步研讨后,竟有了令人吃惊的发现:模型之所以能区分哈士奇和狼,并不是靠特征,而是背景。
原来,在用于训练的数据集中,绝大部分图片里的狼,要么站在雪地上,要么头顶的天空正在下雪,模型仅靠背景能否有雪而做出的判别,就达到了令人称心的准确率。
没有一丝丝防备,高大上的哈士奇辨认模型,竟是一台雪花辨认器。


我们都知道,机器学习的三要素是数据、算力、算法,所以整个行业都铆足了劲,拼命从这三个方面下手:
1、给数据集扩容;
2、安排超高功能的计算设备;(用于训练 GPT-3 的计算机,拥有 285000 个 CPU 内核、10000 个 GPU 和 400Gbps 的网络衔接,位列全球超级计算机榜第 5 位。)
3、研讨复杂精深的算法。
看起来,努力的方向没缺点,可为什么人工智能还不能拥有真正的智慧?
一个基础却又不易察觉的缘由,在于数据:在机器学习中,常常要求数据是独立同分布(iid,independently identically distribution)
我们先来看看啥叫独立同分布。
1)独立:数据间不会互相影响
比如摇骰子,抛到几就是几,第一次的结果,完全不会影响第二次的结果。
2)同分布:一切数据都服从同一个分布
还拿摇骰子为例,每一次抛骰子的动作,得到恣意点数的概率都是六分之一,这就是同分布。
3)独立同分布:数据既独立,又同分布
除了摇骰子,掷硬币也满足独立同分布。
那么成绩来了,机器学习为什么常常需求独立同分布数据?由于容易出效果。
机器学习是一个找规律的过程。模型经过学习已有数据,总结出内在规律,就能拟合将来数据,达到模拟和预测的目的。
假如训练数据具有总体代表性,模型总结规律的表现就好,反之,总结规律的表现就差,很容易被误导。
比如模型能够辨认不出站在海滩上的牛,由于没几头牛无机会站在海滩上晒日光浴。


《牛与风筝》(Cows and Kites)

摄影师 Andrew Lever



正由于模型过度依赖训练数据,所以人工智能不只显得蠢笨,而且极易遭到攻击。
曾有一个来自日本的团队,他们只给图片加了一个像素,就成功让人工智能的辨认出错,指鹿为马,比如把狗辨认成猫,把马辨认成智能手机。


一个宏大像素就能骗过人工智能,离谱。
来自加州大学伯克利分校的著名人工智能专家 Dawn Song,稍动手脚,也轻松骗过了自动驾驶。
你瞧下面这张图,明明指示牌上写着“STOP”,可 Dawn Song 仅仅贴了几个黑白胶带条,就让自动驾驶把它看成了时速 45 公里的限速牌。


细思极恐。
所以说,基于规则的人工智能系统非常脆弱,不但容易被数据误导,而且一旦神经网络失效,技术人员也很难找出缘由,停止有效修复。
鉴于机器学习“黑盒子”的缺陷,朱迪亚·珀尔提出了基于概率的贝叶斯网络,让“黑盒子”透进了一丝光,也因此获得了图灵奖。
贝叶斯网络的基础,是贝叶斯定理,而贝叶斯定理的本质,是从结果倒推缘由。
假如用一句话来概括贝叶斯定理,那就是:当理想在变,看法也要跟着变
这非常像警察破案。当凶案发生后,警察虽没有本质性证据,但从初步排查的结果来看,高度怀疑张三、李四和王五是凶手。
在接上去的勘查中,警察先发现张三和受益者在案发当晚吵过架,于是张三的嫌疑陡然上升,可随后又发现,两人吵完架后,张三去找冤家打牌,有不在场证明,故而嫌疑解除。
接着,警察发现李四在案发后立刻去外地打工了,一清查,发现李四真的只是单纯去打工了,嫌疑也被解除。
最后,警察从王五冤家处得知,王五曾在一次酒醉后提起过与案件相关的细节,立刻查证,终于找到直接证据,成功锁定真凶。
看法随理想改变,这就是贝叶斯定理的精髓,这一招,福尔摩斯也常用。
1985 年,朱迪亚·珀尔将贝叶斯定理运用到人工智能模型中,推出了“贝叶斯网络”,成为「机器学习」这门技术的开山鼻祖。
贝叶斯网络,是让计算机可以在“灰色地带”停止思索的第一个工具,它提出先验概率和后验概率,成为人工智能范畴的一个重要工具,直到明天都在被广泛运用。
什么是先验概率和后验概率呢?
假如你是个微生物学家,就必须用显微镜来停止观察,然后记录下数据,最后得出推论。
在这个过程中,你选择的显微镜就是“先验”,记录数据就是“后验”,二者共同决议你的结论质量:假如你选用放大镜观察,或者委托实验室保洁大妈帮你记录数据,都会对实践结果形成影响。
应用贝叶斯网络停止推理时,异样要选好先验和后验,才能保证最佳的训练效果。
虽然贝叶斯网络让机器学习这个黑盒子透明了一些,可它照旧没能弥合人工智能与人类之间的差距:因果。
也就是说,人工智能回答不了为什么。
因此,贝叶斯网络之父朱迪亚·珀尔,决议成为一个“叛教者”。


(三) 机器学习中的小机灵



朱迪亚·珀尔 (Judea Pearl) 所谓的“反叛”,是指从概率关联,到因果推理。
来看下面这个动图,人类在观看时,不用额外思索,也能轻松推论出不同元素间的因果关系。比如当你看到球棒和运动员的手臂同时运动,就知道是运动员的手臂带动了球棒的运动,进而影响了球的运动轨迹。


同时,人类还能停止更高级的反理想思索:假如这个球飞的再高一点,球棒没有击中它,会发生什么?
不管是推论因果联络,还是反理想思索,对人类来说都不难,由于从出生末尾,我们就不断在做这样的事情。
可就是这样简单的事情,放在机器学习身上,就成了应战。
人工智能可以在围棋等赛事中赢过人类,可以在医学影像中预测癌变,可以在海量数据中发现巧妙的规律,却无法做到简单的因果判别,例如应用球员腿部动作和足球轨迹间的联络,完成球赛追踪直播,而不是忽略场上的运动员,无缘无故将一个又大又白的脑袋当成足球,令人啼笑皆非。
虽然现有的机器学习模型曾经获得宏大提高,但真相却是,一切的模型,依然是在对数据停止准确的曲线拟合。
也就是说,现有的模型,只是在上一代的基础上提升了功能,但在基本的思想方面,没有任何提高。
在朱迪亚·珀尔看来,要想改变“有多少人工,就有多少智能”的困境,急需一场「因果革命」
这里说的因果,不是指一个新的研讨课题,朱迪亚·珀尔把它称作“新迷信”,这是一道新的大门,对人工智能的提高,将会产生宏大的推进作用。
既然如此,那还等什么,赶紧把它写进代码里呀!但理想却是,根本不存在这样的代码。
在长达数十年的工夫里,迷信界广泛以为,因果关系根本不存在,所以压根儿就没把它划进迷信家族中,更别说用迷信的言语来描画它了。
当然,这种场面可不是迷信家们拍拍脑袋达成的共识,而是实验后得出的结论。
1877 年 2 月 9 日,英国著名的生物统计学家高尔顿,在由英国皇家学院举行的著名“周五晚间演讲”上,做了一个题为“典型遗传规律”的演讲,演讲的重头戏,是场实验演示。
台下身着礼服的观众,全都是英国社会的下层精英,高尔顿当着一切人的面,用一种奇异的安装,展现了一个实验。


高尔顿立起一块木板,上半部分是很多排交错呈三角形的小格挡 ,下半部分则是几个垂直的竖槽。小球从上部正地方的入口处掉落,经过一排排小格挡的碰撞,就会落到下面的竖槽中。


高尔顿钉板

他把这个板叫做梅花机,后来更多被称为高尔顿钉板 (Galton knocked boards)。
在小球掉落的过程中,碰撞随机发生,落到哪个槽里无法预测,可随着小球的数量添加,你就会发现,小球的分布是有规律的。


越接近中间的竖槽,小球越多,越到两边,小球就越少,全体分布呈现平滑的中型曲线,非常像单峰驼的驼峰,统计学把这种现象叫做正态分布。


高尔顿用这个实验来模拟人的遗传。
人的身高会遭到很多遗传要素的影响,就像高尔顿钉板的小格挡一样,但不管有多少种要素,最终都会呈现出正态分布。
也就是说,大部分人都将处在平均身高区间,特别高和特别矮都是多数。
以我们的生活阅历来判别,高尔顿的实验结论没缺点,但高潮还在后面。
高尔顿继续思索:假如在钉板下面,再接一个钉板,结果会发生变化吗?


答案是:会。
这次实验结果表明,第一代中,特别高和特别矮的人都是多数,到了第二代,特别高和特别矮的人增多了,平均身高区间的人数有所减少。
当然,你一定看法到了,理想世界并不是这样,不管阅历多少代,特别高和特别矮的人,一直都是多数。
此外,高尔顿还观察了 600 多位英国名人, 最后发现,正所谓“富不过三代”,这些名人的儿子们,普遍没有父辈有名。


图片仅供一笑

高尔顿将这种现象叫做回归伟大,并用了 12 年工夫,采用各种研讨方式,希图找出缘由。
最后,他得出结论:也许没有什么缘由,这个世界,并非是因果能解释的,用“相关性”了解更为合适
再往后,高尔顿的先生皮尔逊异样以为:世界上只要相关性,没有因果。
只是,有的相关性是有意义的,比如父辈的身高和后代的身高;有的相关性是没有意义的,比如公鸡打鸣和太阳升起。
这一观点,逐渐成为不少迷信家的共识。
但这里,其实有个成绩。
什么是没有意义?举个栗子,公鸡打鸣不会导致太阳升起。各位留意看这个词,“导致”。
“导致”用来解释的,就是因果联络
皮尔逊虽然不承认因果,可他在判别相关性的时分,依然用到了因果。
这下,场面变得有些尴尬了:迷信上,不能证明因果联络,但在思索上,又离不开因果联络
贝叶斯网络之父朱迪亚·珀尔,运用哲学的方式,对这一难题给出了本人的看法。
他以为,要把客观和客观这两个维度分开来看。
因果是一种客观的思想方式,人类看到客观现象,就会客观建立原因果联络,但客观世界,也许并非是按照因果规律运转的。
因果联络是人类建立认知的一种基本方式,即便是一次再简单不过的思索,我们也在调用因果思想。更进一步说,不管客观世界存不存在因果,作为人类,客观上都无法分开因果这个思索方式。
只是,以当下的迷信研讨,还无法给因果联络一个精准的定论。
当然,我们可以渐渐纠结,等可以用迷信言语来描画因果关系那一天的到来,可人工智能等不了。
真要等研讨明白这个成绩,再把它变成代码,输入人工智能,那在此之前,人工智能将长期处于“有多少人工、就有多少智能”的时代。
在这个效率至上的时代,这个方案显然不可取。
在理想世界,不是非要搞明白牛顿力学,才能造出一把锤子,很多实际提高,都出如今实际构成之前。
所以,面对人工智能,当前最重要的工作,不是搞清楚因果联络,而是完善因果思想。
我们来看两个故事。
第一个是后羿射日。远古时期,天上有十个太阳,直接导致温度太高,不适恼人类生活。这时,一个叫后羿的暖男,举起一把大弓,追着射下九个太阳,让地球成为适恼人类寓居的蓝色星球。
第二个来源于三体。悠远的外星系,挂着三个太阳,它们在万有引力的作用下互相吸引,做出了很多没有规律的不规则运动,有时不升起,有时三日腾空,导致温度骤升,有时又忽然落下,四处乌黑阴冷,三体人只能用脱水的方式来维持生命的延续。
在第一个故事中,存在的因果模型很简单:十个太阳,导致热,射下九个,不热。
在第二个故事中,异样还是太阳,但因果模型变得复杂,由于关键要素添加了:人们看法到了万有引力的存在,而且,三个太阳不只热,还多了人类无法预测的不规则运动,超出了人类的数学极限,你根本无法经过计算,预测它们下一步的运动轨迹。
其实,第二个故事中的因果模型,也并不一定完全准确,也许你明天早上一睁眼,打开热搜就发现,有迷信大神找到了一个除万有引力之外的新规则。
这意味着:世界同时存在不同维度的各种规则,你能察觉的规则越多、越关键,你的因果模型才会越准确
都有哪些完善因果思想的方法呢?一同来看两个高频运用方法。


(四) 辛普森悖论



关于自动驾驶,出现频率最高的日常迷惑是:机器和人类相比,到底谁开车更安全?
在一次人工智能论坛上,特斯拉公司的董事会主席德霍姆摆出了数据:自动驾驶每 400 万英里发生一次事故,而人类司机呢?每 50 万英里就会有一次事故。


不言而喻:自动驾驶胜。
不过,异样是摆数据、讲道理,有人却给出了相反的结论。
来自伊利诺伊大学的一个研讨团队,研发出了一种针对自动驾驶的缺点评价技术,他们分析了 Uber 和 Waymo 在 2014-2017 年间提交的一切安全报告 (涵盖 144 辆车,累计行驶里程 1116605 英里) 。
最后,结果显示:在异样的行驶里程数下,人类驾驶汽车发生事故的能够性,比自动驾驶汽车低 4000 倍。
如此看来:人类司机胜。
怪了,两方都是以客观数据为根据,却论证了两个截然相反的观点,这就显得有些玄学了
这种看似违犯常理的诡异现象,其实是个非常经典的统计学成绩:辛普森悖论。
1951 年,辛普森在论文中阐述了一种奇异的现象:当人们尝试探求两种变量能否具有相关性的时分,会分别对之停止分组研讨。但是,在分组比较中都占优势的一方,在总评中,反而成了失势的一方。
举个栗子,假设你是某大学校长,正坐在办公室里。
忽然,秘书眉头紧锁推门出去,对你说:大事不好了,校门口有很多男生举着横幅抗议,说我们的录取环节存在性别歧视,女生的录取率是 42%,男生的录取率却只要一半,仅为 21%。
听完秘书的汇报,你觉得很疑惑,反问秘书:之前我们不是专门闭会说,往年要提高男性的录取率嘛,怎样还搞成这样?
秘书哭丧着脸回答说:我的确是严厉按照计划行事的呀,您看,我还做了个表呢。
从秘书制造的统计表中,你清楚地看到:商学院的录取率中,男生是 75%,女生是 49%;法学院的录取率中,男生是 10%,女生是 5%。


不管看哪个学院,都是男生的录取率高,可不知为什么,合在一同看,男生的录取率反而低了。
异样的数据,却得出相反的结论,这就是辛普森悖论。
就这个例子看,究其缘由,是由于秘书只从表面统计了数据,却没有思索数据间的因果性。
1) 忽略了央求者的性别权重
央求商学院的女生人数是男生的 5 倍,表示女生更偏爱商学院。在 53.3% 的录取率中,男生央求人数少,所以不被录取的人数也相对少,女生刚好相反,导致男生录取率反而高于女生。
相反,央求法学院的男生人数是女生的 5 倍,显示男生更情愿央求法学院。同理,在 9.2% 的录取率下,虽然最终录取了 10 名男生,1 名女生,但由于女生央求人数本来就少,被淘汰的人数自然也少,导致男生录取率再次高于女生。
可是,一旦将两组录取率停止简单平均,忽视两个学院录取率的宏大差异 (53.3% 和 9.2%),女生录取率自然就反超了。
2) 忽略了其他的潜在影响要素
在录取率面前,央求者出现比较大的性别差异,只是一种随机事情,往大看,性别甚至能够对录取率毫无影响,仅是这届先生的退学成绩恰恰出现这种比例,容易让人误以为是性别要素导致。
虽说下面这个故事纯属虚拟,但在理想生活中,的确存在很多辛普森悖论,在政治范畴,政客们更是常常应用辛普森悖论来笼络人心。
福特总统在 1974~1978 年的任期中,对各个支出人群实施减税,从下图中就能看出,每个征税区间的税率都有所下降,但理想是,在此时期,全体税率出现上升,税收额分明下跌。


辛普森悖论揭示了一个很容易被忽略的真相:数据是个强有力的武器,但它是会骗人的
想要破解“辛普森悖论”迷局,一个非常好用的方法就是:区分混杂因子
回想你刚刚当校长时遇到的难题,就能很容易了解这个方法:找到形成“双面数据”的混杂因子,也就是可以同时影响缘由和结果的那个要素,把与它相关的要素分开计算 (性别),就能得出正确结论(男生录取率的确高于女生,与原有招收目的分歧)。


(五) 酸橙和柠檬

另一个完善因果推理的常用方法,叫做寻觅正确的中介物
在数百年前的大航海时代,坏血病是一种可怕的疾病,仅 1500 年到 1800 年,就有约 200 万名船员因此丧命。
有人末尾怀疑,坏血病之所以高发,很能够是由于船上短少新颖蔬菜和水果。
1747 年,苏格兰海军终于有了发现:柑橘类水果可以预防这种可怕的疾病。
自此,英国海军末尾规定:一切出海的船只,必须携带充足的柑橘类水果。对比上去,他们选择了西班牙柠檬。
当船员们人手捧着这种黄黄的水果后,果真,坏血病很少出现了。对整个英国海军来说,坏血病曾经成为历史。
可没想到,一个世纪后,当英国探险队末尾极地探险时,坏血病东山再起。
随后,在 1903 年和 1911 年,又有两支极地调查队遭遇了坏血病。
奇异,明明曾经可以写进历史的坏血病,怎样就又出现了呢?
原来,这几支极地调查队在出发前,只备足了没有腐坏迹象的干肉,以及其他食物和茶饮,完全没有储备柑橘类水果。


极地探险队成员每天的口粮:

巧克力、干肉饼、糖、饼干、黄油、茶

至于为什么不带,由于当时的医生,根本不知道柑橘类水果是怎样预防坏血病的,误以为是柑橘类水果中的酸性物质在起作用。
这样一来,只需含有酸性物质,一定也能预防坏血病。于是,出于经济方面的思索,海军高层选择了更便宜的西印度酸橙,交换掉了之前的西班牙柠檬。
反正二者都一样酸,效果一定差不多。
更绝的是,海军高层不只换了种类,而且为了防止腐坏,还把酸橙榨汁煮熟后带上船,直接导致坏血病大面积迸发,严重程度超过以往任何时期。
在这个凄惨的案例里,后来,医生以为柑橘类水果可以预防坏血病,是由于它含有酸性物质。那么,酸性物质就是中介要素,它可以直接导致坏血病迸发这个结果。
用因果图表示就是:柑橘类水果——酸性物质——坏血病。
按照这个因果关系,一切的酸性物质都能预防坏血病,比如醋、巧克力都行。可理想上,起预防作用的不是酸性物质,而是维生素 C。
西印度酸橙虽然便宜,可它的维生素 C 含量,只要西班牙柠檬的四分之一,而本来就不多的维生素 C,再经过榨汁煮熟,几乎全军覆没,这才导致坏血病的忽然迸发。
所以正确的因果图应该是:柑橘类水果——维生素 C——坏血病。
维生素 C 才是那个正确的中介要素。
所以说,找到正确的中介要素,才是建立有效因果模型、最终处理成绩的关键。
历史总在重演,科技永远向前。
运用因果推理,让人工智能“更聪明”,正在成为行业内的新发力点。前两天,我刚好看到一个旧事,说阿里巴巴达摩院将因果推理引入计算机视觉,试图让 AI 想象从未见过的事物,比如学过人类照片和鱼类照片后,再给 AI 看一张美人鱼的照片。
至于 AI 能将美人鱼认成什么,我还没去探求,但我希望技术人员给 AI 看的美人鱼照片,不是长下面这样。









参考材料:
1、https://www.sciencedaily.com/releases/2019/10/191025170813.htm
2、https://bdtechtalks.com/2021/03/15/machine-learning-causality/
3、https://arxiv.org/pdf/2102.11107.pdf
4、https://www.nature.com/articles/s41599-020-0494-4
5、《为什么:关于因果联络的新迷信》 朱迪亚·珀尔





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册