为何“人工智能”变得越来越笨

ezero · 2024-5-31 22:39:22

谷歌人工智能概览的灾难性发布暴露了生成式人工智能的根本缺陷。

你知道猫曾经去过月球吗？只要你的皮肤是黑色的，盯着太阳看 15 分钟甚至更长时间都是安全的吗？或者为了保持健康，你应该每天吃一块小石头吗？
这些是谷歌为其美国用户提供的最新智慧结晶（我们在英国还没有那么幸运）。“让谷歌为您搜索”，这家搜索巨头在本月初推出一项名为 AI Overviews 的功能时承诺道。该功能将谷歌的 Gemini 生成式人工智能模型集成到其搜索引擎中。它生成的答案出现在传统的排名结果列表上方。而且您无法摆脱它们。
至少可以说，AI Overviews 并没有达到 Google 所期望的效果。它确实在互联网上迅速走红，人们分享了他们最喜欢的答案。不是因为这些答案有用，而是因为它们太可笑了。例如，当你要求 AI Overviews 提供以“um”结尾的水果列表时，它会返回：“Applum、Strawberrum 和 Coconut”。这就是 AI 术语中所谓的“幻觉”。
尽管谷歌市值高达 2 万亿美元，而且有能力聘请世界上最优秀的人才，但它在人工智能方面却一直举步维艰。去年2 月，谷歌首次尝试加入生成式人工智能淘金热，但命运多舛的 Bard 聊天机器人也存在类似的问题，比如说一些不准确的事实。在第一次现场演示中，Bard 错误地宣称，2021 年才发射的詹姆斯·韦伯太空望远镜拍摄了有史以来“第一张”从太阳系外拍摄的地球照片。这一错误让谷歌的市值蒸发了 1000 亿美元。
今年 2 月，谷歌再次尝试人工智能，这次是使用图像和文本生成器 Gemini。问题是，它有非常严格的多样性保护。当被要求生成符合历史的图像时，它会生成黑人纳粹士兵、美洲原住民开国元勋和南亚裔女教皇。
《经济学人》辩解道，这是“一个善意的错误” 。但谷歌并没有对生成式人工智能固有的问题措手不及。它应该知道它的能力和缺陷。
在当前的人工智能热潮真正开始之前，分析师们就已经发现，生成式人工智能不太可能改善用户体验，甚至可能会降低用户体验。但投资者开始蜂拥而至后，这种谨慎态度就被抛弃了。
那么，为什么谷歌的人工智能会得出如此糟糕的结果呢？事实上，它的工作方式与你预期的完全一样。不要被“人工智能”的标签所欺骗。从根本上讲，人工智能概述只是试图根据统计概率猜测它应该使用的下一个单词，但没有任何现实依据。当被问到一个难题时，算法无法说“我不知道”，因为它什么都“不知道”。正如用户所证明的那样，它甚至无法进行简单的数学运算，因为它没有数字或有效算术运算的基本概念。因此才会出现幻觉和遗漏。
当输出结果不那么重要时，例如当人工智能在处理图像时出现小故障时，这个问题就不大了。我们的手机每天都使用机器学习来处理照片，我们不会注意到或太在意大多数故障。但谷歌建议我们所有人开始吃石头，这可不是小问题。
由于人工智能的训练方式，此类错误或多或少是不可避免的。人工智能模型不是从精心挑选的准确信息数据集中学习，而是在一个庞大的、几乎开放的数据集上进行训练。谷歌的人工智能和 ChatGPT 已经尽可能多地抓取了网络上的信息，不用说，网络上的很多内容都不是真的。Reddit 等论坛充斥着讽刺和笑话，但人工智能认为这些是值得信赖的，是对问题的真诚和正确的解释。程序员长期以来一直使用短语“ GIGO ”来描述这里发生的事情：垃圾进，垃圾出。
人工智能的幻觉问题在所有领域都是一致的。它几乎阻止了生成式人工智能在商业和业务应用中的实际应用，而你可能期望它能节省大量时间。一项关于法律工作中生成式人工智能的新研究发现，现在需要额外的验证步骤来确保人工智能不会产生幻觉，这抵消了部署它所节省的时间。
“[程序员] 仍在犯与以前一样愚蠢的错误。没有人真正用大型语言模型解决幻觉问题，我认为我们也做不到”，认知科学家、资深人工智能怀疑论者加里·马库斯教授上周表示。
另一个问题现在浮现出来。人工智能通过生成虚假信息，让本来就糟糕的工作变得更糟，这些信息随后污染了网络的其余部分。正如一位 X 用户所说，“谷歌会学习它在互联网上看到的任何垃圾，没有什么比人工智能更能生成垃圾了。”
去年，领先的人工智能公司承认，由于网络上的内容已经不够用，他们开始使用合成训练数据，即由生成式人工智能本身生成的数据。一年前，OpenAI 的 Sam Altman表示，他“非常有信心，很快所有数据都将是合成数据”，由其他人工智能编造。
这是一个巨大的问题。它本质上会导致模型“崩溃”并停止提供有用的结果。开放数据研究所的 Nigel Shadbolt 教授去年 12 月警告说：“模型崩溃是指生成式人工智能变得不稳定、不可靠或停止运作。当生成式人工智能模型接受人工智能而非人类生成的内容的训练时，就会发生这种情况。”一位名叫 Jathan Sadowski 的研究员将这种现象称为“哈布斯堡人工智能”，以纪念西班牙哈布斯堡王朝，该王朝于 1700 年因近亲繁殖引起的疾病而灭亡。
你可以争辩说，类似的事情已经发生了，即使没有人工智能的帮助，比如当一个虚假的事实被插入维基百科，被媒体引用，然后媒体的引用成为它继续被收录在维基百科中的理由。
人工智能只是自动化并加速了这一制造谎言的过程。本周，《每日电讯报》给出了以下例子：“当谷歌声称没有以字母 K 开头的非洲国家时，它的答案似乎是基于 ChatGPT 答错同一问题的网络讨论。换句话说，人工智能现在正在将其他人工智能捏造的东西当作真理。”
对这一现象最恰当的描述来自一些美国研究人员，他们去年创造了“模型自噬障碍”一词，简称 MAD。他们想唤起将牛朊病毒引入牛食品供应的做法，这种做法导致了牛海绵状脑病，即疯牛病。他们写道：“我们在所有情况下得出的主要结论是，如果自噬循环的每一代都没有足够的新鲜真实数据，未来的生成模型注定会使其质量（精度）或多样性（召回率）逐渐下降。”
当 OpenAI 于 2022 年 11 月开放其 ChatGPT 工具时，几乎没有人警告过生成式 AI 的弊端。现在，ChatGPT 已经污染了网络，毒害了自己和其他 AI 工具。清理这一切将是一个巨大的挑战。虽然 AI 承诺的收益仍然难以实现，但成本显然开始增加。
本文作者：安德鲁·奥洛夫斯基是《每日电讯报》的每周专栏作家。

		自动登录	找回密码
密码			立即注册

为何“人工智能”变得越来越笨

本帖子中包含更多资源

最近发表

公社版块

关注我们