DeepMind大神 Sutton论证有限猴子原理：强化学习搞定通用人工智能

情王淫正 · 2021-6-11 16:47:39

来源：sciencedirect

编辑：Emil 好困

【新智元导读】DeepMind最近研讨了一下大自然，于是决议把「达尔文主义」运用在AI下面。首先给AI设定一个奖励，等AI学会如何把奖励做到最大化，它就是个出色的人工智能代理了。

人工智能发展了这么久，终于产生了包括卷积，留意力，全衔接等各种机制。
风趣的是，最近的研讨反而搞起了「这些机制我们都不需求」的创新。
例如苹果发表的一篇论文表示Transformer不需求留意力机制。

在这个方面，DeepMind也不甘落后，发表文章称「Reward is Enough」，其他都不需求。

https://www.sciencedirect.com/science/article/pii/S0004370221000862
人工智能如今曾经可以在有限的环境中有效地处理特定的成绩，但它们还没有发展出在人类和动物身上看到的那种普遍的「智能」。

DeepMind以为「智能」不是从制定和处理复杂成绩中产生，而是经过坚持一个简单但弱小的准绳：奖励最大化。

值得留意的是，发表这篇文章的是DeepMind强化学习范畴的两位大神：David Silver（下图右）以及Richard Sutton（下图左）。

David Silver 是 DeepMind 首席迷信家、伦敦大学学院计算机迷信系教授，他是 AlphaGo 的设计研发主导人物。

而Richard Sutton 是阿尔伯塔大学计算机系教授、DeepMind 杰出迷信家，他被以为是古代计算的强化学习创立者之一。

奖励最大化就能完成AGI？

通常以为，组合多个人工智能模块就可以产生更高的智能系统。例如，把独立的计算机视觉、语音处理、NLP和运动控制模块之间停止协调，从而去处理需求多种技能的复杂成绩。
而DeepMind的研讨表示，你们搞这些自上而下的都是歪门正道，奖励机制才是自然界中产生如此丰富的智能的缘由：

例如，一只想要「活着」的松鼠，那么饥饿最小化这个奖励机制就可以以为是「活着」的一个子目的。
于是，这只松鼠就产生了感知和运动的技能，从而协助它在有食物的时分找到并搜集坚果。
但只能找到食物的松鼠在食物变少时就会饿死。因此又产生了计划和记忆的才能，这样松鼠就可以把坚果藏起来，等到冬天的时分再去找到这些坚果。同时，松鼠还需求产生关于社会的知识，从而避免其他动物去偷藏起来的坚果。
论文表示，奖励最大化是足以驱动自然界的生物和强化学习代理产生「智能」的，包括知识、学习、感知、社会智能、言语、概括和模拟。

因此，人工智能经过奖励最大化的强化学习之后，就可以成为今后在人工智能方面通用的处理方案。

但是，这个例子依然没有解释为什么异样是最大化奖励，人类就能写出「人工智能」，而这只松鼠就不行？

奖励最大化的强化学习方向法

强化学习是AI算法的一个特殊分支，这套方法由三个关键要素组成：环境、代理以及奖励机制。

在执行操作的过程中，代理会根据操作过程对于目的的影响程度来决议奖励或者惩罚，同时改变本人和环境形状。
许多的强化学习产生的成绩在于代理对于环境缺乏初始的认知，从而导致末尾时的随机操作。根据反馈，代理学会调整其行为，并制定最大化奖励的策略。
在论文中，DeepMind 的研讨人员建议将强化学习作为次要算法，它可以经过学习在自然界中的奖励最大化方法，并最终带来通用人工智能。

作者在论文中说，「假如一个代理可以延续调整它的行为来提升奖励，那么任何在这种环境下的反复功才能都可以经过代理这样的行为产生出来。」

一个好的强化学习代理可以经过这样的方法学习感知、言语、社交才能等等。

在论文中，研讨人员提供了几个例子，展现了强化学习代理如何可以在游戏和机器人环境中学习普通技能。

不过研讨人员同时强调，一些基本成绩照旧有待处理，比如他们对于强化学习的样本执行效率缺乏实际根据。

众所周知，强化学习需求给机器「喂」大量的数据，假如让电脑经过机器学习的方法来学会一个电脑游戏，它们能够需求几百年来学习……

并且如何在更多的范畴来创造一个强化学习系统对于研讨者来说也是一个应战，由于任何环境中宏大的变化都需求对模型停止片面重新训练。
同时，奖励最大化的学习机制是一个未处理的成绩，照旧是强化学习中有待进一步研讨的核心成绩。
奖励最大化的优点和缺陷

加州大学圣地亚哥分校的神经迷信家、哲学家和声誉教授帕特里夏·丘奇兰 (Patricia Churchland) 将论文中的想法描画为「非常细心和有见地的处理方案」。

同时，丘奇兰也指出论文中关于社会决策讨论中能够存在的缺陷。DeepMind的研讨人员专注于在社交过程中的个人收益。

而丘奇兰在本人最近写的书中谈到，对于哺乳动物和鸟类而言，个体之间的亲情关系往往会对社会决策产生严重影响，比如动物会为了保护孩子而将本人置于风险中而不顾。
当然，丘奇兰补充到，本人的观点对于论文中的假设并没有冲突，只是一个有益的补充。
而数据迷信家Herbert Roitblat 则对于这篇论文的立场提出了应战，他以为经过简单的学习机制和试错阅历足以培育机器智能的说法有些站不住脚。

Herbert Roitblat 也是通用AI范畴的专家

假如没有工夫限制，那么试错学习的方法能够可行，但是这个方法就像是有限猴子定理，即让一只猴子在打字机上随机按键，当按键工夫达到无量，它必然会打出任何给定的文字。

「建立了模型和表述方式之后，优化或强化就可以指点其退化，但这并不意味着强化就足够了，」Roitblat 说。

异样，Roitblat 补充说，该论文没有对如何定义强化学习的奖励、操作和其他元素提出任何建议。

「强化学习的前提是代理有一组有限的潜在操作方式，同时奖励标准和价值函数也需求提早指定。换句话说，通用人工智能的成绩恰恰是强化学习的先决条件。
所以假如机器学习都可以简化成为最大化某种评价参数的方式，那么强化学习一定是有意义的，但是它照旧缺乏压服力。」

通用人工智能迎来新曙光？

DeepMind的研讨人员在讨论通用人工智能的完成途径：即经过自下而上，而不是由人类先制定好顶层规划和结构的方法来完成特定的目的。
通用人工智能指的是通用人工智能是一些人工智能研讨的次要目的，也是科幻小说和将来研讨中的共同话题。一些研讨人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机用具有执行通用智能行为（general intelligent action）的才能。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知才能。

关于人工智能的智力程度，与乔布斯共同创建苹果公司的天赋沃兹尼亚克曾经提出一个咖啡测试：

即让一台机器进入普通的美国家庭并弄清楚如何制造咖啡：找到咖啡机，找到咖啡，加水，找到杯子，然后经过按下适当的按钮来冲泡咖啡。

在当前AI发展的程度下，一台机器人可以做到制造咖啡并非难事：经过工程师的顶层设计，让它的感知系统学会分辨咖啡、咖啡机等物品，同时让决策和执行系统来完成制造咖啡的一系列操作。

但是难点在于如何让一台「一无所知」的机器人本人在环境中学会制造咖啡。根据DeepMind研讨人员的论文，经过为AI设立一个制造咖啡的目的，并设定好相应的奖励机制，经过不断的试错这台机器终将领悟制造咖啡的真理。
假如目的设定得好，它能够还会帮你做出一杯口味纯正的猫屎咖啡。

此篇文章如今在reddit上也引发了爱好者们的热烈讨论。

「恐怕这些学者是在象牙塔里待的工夫太久了，过度自信到了自恋的程度。」

「假设我有有限资源和工夫，成功地创造出来了AGI，那我会从这个过程中学到什么？这还是迷信吗？」

根据达尔文的自然选择实际，生物退化大概需求4亿年的工夫，但是至今也没人能解释清楚6亿年前寒武纪地球上为什么会忽然多了那么多新物种。

或许在自然界中的退化，也远非我们想象中的那么简单。

		自动登录	找回密码
密码			立即注册

DeepMind大神 Sutton论证有限猴子原理：强化学习搞定通用人工智能

本帖子中包含更多资源

最近发表

公社版块

关注我们