找回密码
 立即注册
搜索

人工智能了没?AI的发展史和局限性

2006年,微软发布了WINDOWS vista,其游戏开发工具(DirectX 10)大幅提高了3D图形的表现,使得电子游戏进入了“显卡危机”时代。作为消费级显卡的主要开发者,英伟达和AMD的军备竞赛随之进入白热化。而在PC玩家享受高端显卡的同时,为了利用日新月异的显卡性能,两家公司各自推出了并行计算显卡(英伟达 Tesla 和 AMD FireStream),及其并行计算系统(CUDA,OpenCL)。这一水到渠成的创新,却无意中打通了象牙塔中一门绝技的任督二脉,它就是机器学习的神经网络算法。
2010年代,神经网络所向披靡。2012年,深度学习在图像识别挑战赛(ImageNet)中大获全胜,成为机器学习方向处理复杂数据的最佳算法。2014年,脸书公司推出DeepFace换脸技术,人工智能成为了日常话题。2016年,谷歌旗下DeepMind团队的AlphaGo战胜了围棋世界冠军李世石,再次震撼了社会舆论。2020年,OpenAI实验室开发了语言生成预训练转换器 GPT-3,它正在改变多个行业的工作方式。



2016年的李世石 vs AlphaGo
如果你觉得,AI绘画是“不务正业”,AI换脸是“奇技淫巧”,那么我认为,2022年11月ChatGPT的正式发布,应该引起所有人的重视。因为基于机器学习算法的现代人工智能,正在对人类社会造成广泛影响。而曾经造成这种影响的技术,是计算机和内燃机。
2017年7月,国务院印发《新一代人工智能发展规划的通知》,明确提出人工智能是“引领未来的战略性技术”,是“新一轮产业变革的核心驱动力”。2021年的十四五规划纲要六次提到人工智能,并将其定义为“重大创新领域”和“关键数字技术”。
在专业人士争分夺秒的同时,机器学习到底是什么,我们又应该怎样面对这个历史机遇呢?这篇文章将会从头到尾,梳理人工智能的历史和局限性。
机械人

自古以来,无论是上帝造人还是女娲抟土,创造新的智慧物种,都是神的专属技能。而人类最大的特点,就是始终觊觎神的权力。所以“人造人”,是我们最早的理想之一。然而,在工业时代以前,生产能力和数学工具十分匮乏,人类距离“人工智能”过于遥远。古人当中的天才,要怎样走出第一步呢?答案很简单,就是将人工智能拆解成多个小目标,并攻破其中最容易实现的方面。对古代文明来说,这个小目标,就是固定规则之下的执行能力。
在道家著作《列子 汤问》中,一位叫偃师的工匠,向周穆王进献了一个机器艺人,偃师拨动机关,艺人就唱歌跳舞,演出结束时,机器人居然向王的侍妾暗送秋波。周穆王大怒,认为这是真人,于是偃师当场拆解了机器人,里面果然是革木胶漆等人造物。于是王叹为观止。
周穆王西巡狩,越昆仑,不至弇山。反还,未及中国,道有献工人名偃师,穆王荐之,问曰: “若有何能?”偃师曰: “臣唯命所试。然臣已有所造,愿王先观之。”穆王曰: “日以俱来,吾与若俱观之。”越日偃师谒见王。王荐之,曰: “若与偕来者何人邪?”对曰: “臣之所造能倡者。”穆王惊视之,趣步俯仰,信人也。巧夫顉其颐,则歌合律;捧其手,则舞应节。千变万化,惟意所适。王以为实人也,与盛姬内御并观之。技将终,倡者瞬其目而招王之左右侍妾。王大怒,立欲诛偃师。偃师大慑,立剖散倡者以示王,皆傅会革、木、胶、漆、白、黑、丹、青之所为。王谛料之,内则肝、胆、心、肺、脾、肾、肠、胃,外则筋骨、支节、皮毛、齿发,皆假物也,而无不毕具者,合会复如初见。王试废其心,则口不能言;废其肝,则目不能视;废其肾,则足不能步。穆王始悦而叹曰: “人之巧乃可与造化者同功乎?”诏贰车载之以归。夫班输之云梯,墨翟之飞鸢,自谓能之极也。弟子东门贾禽滑釐闻偃师之巧以告二子,二子终身不敢语艺,而时执规矩。——《列子 汤问》
同样,在希腊神话《阿尔戈英雄纪》中,火神和工匠之神赫菲斯托斯在克里特岛铸造了一个青铜巨人,它有流着“灵液”特殊血管,可以自动抛掷巨石。人类放走了巨人的灵液,才终于成功上岸。
这些青铜时代的传说,展示了古人对人造人的最早构思,即通过精巧的机械结构,模拟人类的某些动作。工匠的技艺越是高超,拟人的机关就越像真人,比如张衡的鼓车、达芬奇的机械武士,都让古代传奇变为现实。在故宫博物院的钟表馆中,我们收藏了一件“铜镀金写字人钟”,每当机关启动,金人就会用毛笔写出(八方向化,九土来王),这就是18世纪西方手工业的代表作品。



铜镀金写字人钟,现藏于故宫博物院钟表馆
而蒸汽机的改良和电力的应用,更催生了蒸汽朋克和电气朋克。1920年代英国的机器人Eric项目,通过最早的电机遥控系统,构建了一个可以站立、挥手和发音的机器人。这就是电气朋克的经典产品,也是游戏《荒野大镖客2》中,一个机器人彩蛋的原型。



1920年代,英国的Eric机器人
人类精巧的机械,是古代长期积累和前两次工业革命的共同成果,也是大量文学作品中机器人的主要载体。但是,照这种思路发展下去,可以实现人造智慧吗?答案显然是否定的。机械人的本质,是执行人类的规定动作,它不但跟智慧毫无关系,甚至不具备完整的执行能力。这一思路最大的问题,是高度依赖原始设计,不能切换既定的功能。
而要接近“人工智能”这座高山,人类需要实现下一个目标,就是没有既定程序的,具体情况具体分析的完整执行力。在让机器说出人话之前,我们要先让机器听懂人类指令。
图灵机

数学计算,是智慧生物的特有行为之一,也是人造机械最早攻克的领域。在天文测算和商品经济中,人们很早就发明了计算工具。因为双手的天然特性,早期计算工具都逢五进位。其中逻辑最简洁的,是中国的筹算体系,而最符合人机功效的,是巴比伦的原始算盘。两种工具在中国的宋元时期结合,就出现了符合筹算原理的一四珠算盘。到了明朝,人们进而发明了二五珠算盘和超规格算盘,促成了东方机械数学的顶峰。比如嘉靖时期的朱载堉,就可以使用超级算盘计算2的12次根号,从而推导出了人类的第一版十二平均律。



朱载堉的81档算盘将2的12次根算到小数点后25位,为彼时西方数学界所不能及



朱载堉《乐律全书》中的十二律律管,解决了人类音乐史的“黄钟不能还原”问题
筹算类工具包含四则运算,也可以通过迭代法开根号,完全适用于古代社会,也是东方代数学相对发达的原因。但由于结构简单,需要背诵口诀,它难以进行三角函数、微积分等复杂运算。缺乏随心所欲的执行力,限制了机械数学的进一步发展。
对西方数学家来说,罗马式算盘的相对低效,和以逻辑学、几何学为核心的数学体系。让他们追求更加精妙的计算工具,以运用数学上的复杂概念。在文艺复兴之后,欧洲手工业突飞猛进,就催生了西方特有的机械式计算器。1642年,帕斯卡发明了滚轮式加法器,实现了加减法的自动化。1672年,数学家莱布尼茨发明了步进式乘法器,实现了四则运算的自动化。
如果说加减乘除平淡无奇,那么机械式计算器的真正突破,来自于英国发明家巴贝奇。1822年,巴贝奇在其论文《论机械在天文及数学用表计算中的应用》中提出了差分机,它可以利用牛顿差分公式,为小于七阶的多项式生成查询表。这一概念很快轰动一时,因为理论上说,任何解析函数都可以进行泰勒级数展开,并利用差分机求解。这在当时的数学应用中,几乎相当于无所不能。1822-1832年,差分机项目完成了七分之一,但因为工艺复杂、造价昂贵,英国政府最终放弃了支持。后来1991年,为了庆祝巴贝奇200周年诞辰,伦敦科学博物馆复刻了这一机器,验证了巴贝奇的原始方案。



差分机(复刻版),其原版完成度为七分之一
虽然差分机项目并不成功,但它启发了人类思考一个问题,就是是否存在一种机器,可以彻底重复人的计算行为。1837年,作为先驱者,巴贝奇提出了他的终极答案:分析机。分析机使用蒸汽驱动、打孔卡输入、打印机输出,拥有运算单元和存储单元。它使用指令集控制运算过程。使用者需要编写程序,根据具体要求解决计算问题。在经费不足的困境中,巴贝奇完成了分析机的基本方案和24个算数程序。



分析机的图纸
后来的事实证明,分析机找到了正确的方向,但其做工要求超前于制造业水平,也没有从逻辑学的高度总结设计思路。随着电气革命继续进行,分析机的瓶颈才逐渐解决。1847年,布尔提出了二元逻辑代数。1891年,电话交换系统的改进,推动了逻辑电路的发展。1904年,弗莱明发明了真空二极管,它最终成为了电路的核心逻辑元件。1936年,24岁的图灵在论文《论可计算数,及其在判定问题上的应用》中,通过定义图灵机,规范了什么是完整的计算能力,开创了计算机科学。所谓图灵机,就是可以在存储介质的任意位置写入或擦除符号的概念机器,它复刻了人在纸张上的演算行为。当一个指令集具有条件语句、循环语句、写入数据等功能时,它就可以实现图灵机的全部功效,这叫作图灵完备性。



图灵机的概念
在图灵机概念提出之后,现代电子计算机就呼之欲出了。在二次大战期间,德国研发了机电计算机Z系列,最终毁于战火。英美两国也研发了电子计算机巨人和ABC,但它们缺乏图灵完备性。人类第一台图灵完备的纯电子计算机,是美国1946年发布的电子数值积分计算机,ENIAC (埃尼阿克)。随后电子计算机先后引入了冯诺依曼结构,晶体管和集成电路,成为了今天的日常用品。



第一台纯电子计算机:埃尼阿克
电子计算机是人类第三次工业革命的核心硬件,它通过研究机器是否具有可编程性,实现了人造工具的完整计算能力。而通过对输入输出进行调整,电子计算机就可以实现完整的执行能力,成为人工智能的硬件平台。这不得不说是一个伟大成就。
然而,如果我们思考人造智慧这一宏伟目标。电子计算机的发明,也只是前进了一小步。因为电脑始终听命于人,还没有进行思考和判断。要让人类的宏图伟业继续前进,我们还要完成下一个目标:让机器开始思考。
推理机

在人的各种智慧当中,最难以描述的也许是自我意识,而最容易模仿的是逻辑推理。逻辑推理有演绎和归纳两大分支,演绎法从规则出发,归纳法从数据出发。
由于“机器服从于人”的思维定势,在人工智能的早期尝试中,人们倾向于把大量知识和规则灌输给机器,再让机器进行推演,这就是20世纪中后期专家系统。专家系统的原理是,任何智慧都建立在知识体系之上,只要我们把足够多的经验教给机器,它就可以重现人类的推理判断,甚至骗过图灵测试。基于这一思路,人类在1970年代开发了大量专家系统,包括有机化学领域的DENDRAL,医疗领域的MYCIN,计算机销售领域的XCON,以及地质勘探领域的PROSPECTOR。由于电脑的计算速度和可靠性,这一类人工智能软件大幅提高了相关行业的效率。



早期人工智能:MYCIN医疗系统
而90年代的IBM公司,也从这个方向对人工智能发起了挑战。实际上,第一个战胜棋类游戏冠军的AI算法并不是2016年的AlphaGo,而是早在1997年就险胜卡斯帕罗夫的国际象棋软件深蓝。在深蓝系统中,有象棋专家对大量人类棋谱的评价,不同棋子的战斗力,和一个启发式算法。在对弈中,深蓝会不断地给所有可能性打分,并选择分数最高的处理方式。而IBM使用了大量的专属芯片,来保证这一复杂系统的计算速度。



1996-1997年的深蓝 vs 卡斯帕罗夫
深蓝并不能对卡斯帕罗夫形成碾压优势,也不能进行自我升级,但它确实是人工智能领域的里程碑。早期的语言处理、图像识别,智能导航和游戏AI,都采用了基于启发式算法的智能系统,这跟深蓝的原理是类似的。
以专家系统为核心的推理机,是人工智能的第一组尝试,也取得了显著的成就。但这个思路的缺点显而易见,就是它只能从规则出发,不能从数据出发,不具备完整的推理能力。在大量实际应用中,人类无法事先制定规则,而要根据观察和数据总结规则。推理机的这种硬伤,间接导致了1990年之前的AI投资的两次寒冬。所以归纳推理,才是复刻推理能力的难点,也是人工智能的下一个目标。
学习机

这里我们终于说到了今天的主角,就是模拟归纳推理的机器学习算法。而在阐述之前,我们先要思考一下,归纳推理可以解决哪些问题?比如说,医学家通过案例,总结疾病种类,叫作分类问题(Classification)。科学家通过数据,进行参数估计,叫作回归问题(Regression)。文学家通过经验,创作小说故事,属于生成问题(Generation)。机器学习的主要目标,就是复刻人类从数据出发,解决分类、回归、生成等问题的方式。比如自动驾驶的图像识别是分类算法。AI股市预测是回归算法。AI下棋是强化学习算法。而AI的绘画、语音、聊天等明星产品属于生成算法。



机器学习解决的三种问题
在所有问题中,分类是大部分归纳算法的基础,也是最容易解决的问题。因为类别本身是一种非此即彼的离散变量。只要我们用分类算法生成连续变量,就可以解决回归问题。而对数据点的全部特征同步回归,就可以解决生成问题。所以机器学习的早期研究,集中于分类算法的开发。一个极简的案例是,如果一张棋盘上同时有黑子和白子,它们的分布满足某种神秘规律,那么一个电脑程序要怎样通过归纳推理,掌握这个未知分布呢?



分类问题的极简案例:区分黑白子
首先,归纳推理从数据出发。我们就把所有棋子一分为二。第一组叫训练样本,第二组叫测试样本。其次,我们定义并优化一个分类模型,使它尽可能区分训练样本中的黑白子。最后,我们将调整好的模型应用到测试样本中,看它是否仍然保持分类能力。这就是分类算法的一般流程,它的核心是模型的选择。
举例来说,如果我们给训练样本的每一个黑子周围画一个圈,然后说圈内属于黑子,圈外属于白子。我们就建立了最近邻(kNN)模型。如果我们对棋盘进行横向和纵向的不断切割,然后试图规定不同区域的归属,我们就选择了决策树(Decision Tree)模型。这样的算法经常简单有效,但由于训练样本的统计涨落,它们也可能顾此失彼,掌握不到真正的规律。而要使用智能的方式划定边界,我们需要在棋盘上画出特定的线条,甚至复杂的曲线。这就引出了高级的机器学习算法。



简单的分类算法更容易受到统计涨落的干扰
在任何平面上,我们都可以定义直线函数,它由平面的两个维度,各维度的权重,以及一个偏置常数组成,如果我们规定这条直线是黑白子的分界,我们就建立了一个线性回归模型,当棋子的坐标使直线函数大于或小于0时,这个模型就会被激活,返回不同的分类代号。



线性回归模型
由于该模型具有输入、权重、偏置、累加和激活的结构,它很像生物神经元的树突、突触强度、静息电位、信号累加、和动作电位。因此线性回归模型,被称为单个的感知器(Perceptron)或神经元(Neuron)。



线性回归模型的逻辑



生物神经元的逻辑,它跟线性回归模型很相似
而如果使用多个神经元和整流函数进行激活,就等价于在决策之前,先用多条线性边界划定决策区域,这叫作插入隐藏层。当隐藏层的结构比较复杂时,决策区域的边界就会形成优美的曲线,与目标区域重合,从而解决分类问题。这就是多层感知器(MLP),即前向神经网络(NN)的基本原理。



多层感知器(前向神经网路)的原理
当我们改变隐藏层的深度、功能和信息传递方向时,就产生了今天市面上的各类神经网络。而当我们改变神经网络的输出层时,就可以把目标从分类问题,转移到回归或生成问题了。



目前流行的神经网络算法
机器学习的真实应用,通常有特定的神经网络架构。比如AI换脸就属于生成对抗网络(GAN),它用一个神经网络作为生成器,产生两种人脸的区别,另一个网络作为鉴别器,区分真假人脸,两个模块互相对抗,就可以提高自身的效能。而ChatGPT,使用了包含注意力机制的转换器架构(Transformer),它可以对大量输入数据进行全局考量,从而特别适合语言的生成。总而言之,在2023年所流行的,凡是处理复杂数据的AI,大多来自于神经网络。



AI换脸使用的生成对抗网络(GAN)
然而,当我们回顾历史,就会发现一个神奇的事实。就是人类早就发明了神经网络,及各类机器学习算法。早在1943年,人们就提出了神经网络的麦卡洛克-皮茨模型(《A logical calculus of the ideas immanent in nervous activity》)。1957年,美国心理学家罗森布拉特发明了感知器算法。1986年,人们已经提出了多层神经网络的反向传播(Backpropagation),确立了现代神经网络的理论基石。而其他算法也不遑多让,同样能解决非线性问题的决策树和向量机(SVM),都是在1970年前后提出,1990年前后成熟的。
既然机器学习是模拟归纳推理的关键工具,为什么在1990年代成熟之后,它没有马上获得足够重视呢?很简单,第一,计算机没有足够的算力,第二,互联网没有足够的数据。在外界条件的限制下,早期机器学习并不能高效地处理复杂数据,以至于较为简单的算法反而能获得更好的效果。所以在1985-1995年之间,人们更喜欢决策树算法,在1995-2005年之间,人们更偏好向量机算法。神经网络则长期被雪藏。
但是,神经网络有一个独特优势,就是它每一层的多个神经元支持并行计算。到了2006年,由于显卡效率的提高和并行计算的开放,神经网络的算力出现爆发,使得机器学习变得比任何算法都适合复杂数据,从而改变了人工智能领域的面貌。在2010年之后,对神经网络架构的创新犹如雨后春笋,就促成了我们今天面对的一大堆AI应用和“新一轮产业变革”。



神经网络脱颖而出的关键:支持并行计算
以神经网络为核心的机器学习,是对人类归纳推理能力的统计模拟,也是人工智能目前达到的最高水平。但这个炙手可热的创新领域,是否可以复制人类的智慧,即实现通用人工智能呢。如果你愿意跟ChatGPT多聊几句,就可以发现,即使是复刻人类的全部推理能力,人工智能也还有很长的路要走。
人工智能了吗?

在天龙八部中,有一个经典情节,叫作珍珑棋局。面对一个围棋棋局,人类却出现了奇怪的联想:段誉想到了爱心,慕容复想到了权力,段延庆想到了身世。如果这三个人穿越到今天,恐怕都不是AlphaGo的对手。但这个故事显示了人类独特的推理优势,即触类旁通的泛化思考能力。



人脑的特点之一:泛化思考能力
一个小孩看过孙悟空,就能在动物园里找到猴子;一个苏联人开过拖拉机,就可以开T34坦克;一个程序员熟悉c++,就可以勉强写出python;而一个厨子看过兵法,就能开通防忽悠热线。这些对人类来说很正常的推理,对机器来说就是无中生有的魔术。因为人可以在记忆中提取抽象概念,进行少样本,乃至无样本学习。换句话说,人脑从娘胎里面就已经开始了它漫无目的地预训练(Pre-training),而电脑只能根据具体任务临时抱佛脚。当一个任务中的数据类型和目标不断变化,比如一种棋类游戏会随时改变规则时,人脑就会利用其转移学习(Transfer learning)能力轻松取胜了。
而强行要求电脑对一切可能的目标暴力训练,虽然理论上可以解决问题,但实际上会造成算力的崩溃。所以要实现强人工智能,电脑仍需理解人脑的学习方式,这就是人工智能的元学习(Meta-Learning)方向。



当前机器和人脑的不同学习方式
在元学习能力的基础之上,人脑的第二个优势,是对抽象概念的创新和整合,也就是康德哲学中的先天综合判断。无论是数学上的费马大定理,还是哲学上的辩证法,发明新概念,都是人类智慧的核心。而这又是当代人工智能无法涉足的领域。
在专家系统中,电脑可以用人类规定的概念进行推理,但不可能发明新的概念,因此它只能进行先天分析判断。在深度神经网络中,电脑优化了成千上万个参数,但这些参数同最终结果的联系不具备可解释性,因此它只能进行后天综合判断。可以想像,在元学习能力出现之后,实现先天综合判断,从而复刻人类的思辨过程,是通用人工智能的第二个难题。



人工智能尚不能实现康德的“先天综合判断”
而即使拥有了思辨能力,人工智能还有最后一座高山,它就是人类的自我意识和真情实感。这个终极问题并不属于人工智能领域,而是生物学、心理学、和伦理学的一个未解之谜。至少在今天,人类根本就不了解意识和情感的产生机制,也不知道假如机器也有意识和情感,我们应该怎样面对。我们只能说,如果没有意识和情感,人类就不再是万物之灵,人生也会失去意义,所以这是人造智慧早晚不能回避的问题。但由于人工智能的前两个问题已经足够困难,这个终极问题已经是空中楼阁,也就没必要展开讨论了。
结语

高山仰止,景行行止,虽不能至,然心向往之。千百年来,人类对人造智慧的追求虽然十分缓慢,但从机械人、图灵机、推理机到学习机,我们的努力也一直在取得长足进展。在2023年的今天,我们可以让AI生成绘画、语音、文本,让AI在竞技游戏中战胜人类,这已经是巨大的成就,也无疑正在改变人类的生产方式。



人造智慧目前的成就
但反过来说,我们也不用对人工智能过于恐慌,因为人类仍然保有独特的元学习能力和概念创新能力,AI并不是要抢走劳动者的饭碗,而是要将劳动转移到更有含金量的任务上,从而对生产力进行新一轮的解放。只要我们处理好科技伦理,它一定会给人类带来巨大收益。
另外,人工智能也反映了人类的一个终极梦想,就是从计算机科学和神经学的角度追求长生不老。因为当电脑拥有了完整智慧之后,它就变成了一种没有肉体的人类。它体现了我们对人生的意义,和对人类族群命运的思考。从这个角度来说,我们理应继续人工智能的研究,这将长期是一个伟大的工作。



现代人对“长生不老”又有了新理解
最后,我们讨论了那么多高深的问题,但人工智能也有捷径。因为从某种程度上来说,生个孩子也算是人造智慧。虽然这是人类的生物本能,但它脚踏实地,可以迅速给你的人生带来意义,我觉得这也是不可忽视的吧。这篇文章就到这里。
#人工智能##机器学习##计算机##AI技术##科技##科学##数学##历史#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册