像小孩子一样边问边学，能让人工智能更聪明吗？

但问耕耘 · 2022-10-22 12:05:05

80 多年前，图灵提出了著名的图灵测试。
这个测试非常简单，就是让一个人与一台机器随便聊天，在不知道对方是机器的前提下，如果你无法分辨和你对话的是真人还是机器，就说明这台机器具有智能。
如果你一眼就看穿真相，只能说明这台机器还很蠢，还配不上“人工智能”这个称呼。
图灵测试得到了很多人的认可，但也有人持不同看法，这个人叫做赛尔。
赛尔并非和图灵有过节，在“如何判断一个机器是否具有智能”问题上，赛尔有自己的理由，也就是“汉字屋”。
想象一个：一间密闭小屋，屋里坐着一个不懂汉语的美国人，屋外守着一个不懂英语的中国人。
美国人想营造出自己精通汉语的假象，中国人想知道屋里那哥们是真懂汉语还是在搞笑。
实际情况是，美国人不懂汉语，但他低头看着手里的中文对话宝典，根本不慌。
假设屋外递进来的纸条上写着“你吃饭了吗？”，美国人翻开词典，找到问题及对应回答，照抄下来再递出去就行：“已经吃了，你呢？”
如果这本中文对话宝典的内容足够充实，查询也足够便捷，那么在这样一来一往间，屋外的人想找到破绽并非易事，因为宝典总能帮屋里的人做出最优回应。
终于，屋外的人放弃了，因为他实在无法判断屋里的人是不是真的精通汉语，虽然偶尔回答刻板，但又没出大错，实在难以下定论。
同理，假设屋内是一台机器，用类似的手段与人交流，对屋外的人来说，别说判断它是不是机器，恐怕连它懂不懂汉语都难以判断。
换个角度来看，图灵测试之所以经久不衰，很大程度是因为相当比例的人工智能，确实是不太聪明。
从人工智能诞生至今，研究者一直试图从人类自己身上总结智慧经验，再将其化作代码，在人工智能身上复现，以此来实现真正的智能。
所以，如同给人工智能喂记忆面包一样，研究者让人工智能快速吞咽数据，可即便上下五千年的数据都喂了，人工智能仍然表现不佳。
或许是因为人工智能总在与世隔绝的虚拟世界中独自学习，缺少与外界的互动，才导致当一个智能体出现在真实世界中时，不断被持续变化的难题所困住，无法脱身。
将智能体从闭关修炼的状态里“解放”出来，让它能够在广阔的社会情境中学习，即是一个新挑战，也是一个新机会。
最近，斯坦福大学计算机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人，针对此问题提出了一种新的研究框架：社会化人工智能（socially situated AI），即智能体通过在现实社会环境中与人的持续互动来学习。

1、强化学习框架

这个社会化 AI 的强化学习框架，重点在于探索智能体真正与人交互的学习方法：要开发社会化的 AI，智能体不仅要收集数据来学习新概念，还要学习如何与人互动来收集数据。
尤为重要的一点是，智能体必须要在交互学习（interacting to learn）和学习交互（learning to interact）这两个目标之间进行权衡。
这是非常具有挑战性的事情，因为智能体要遍历的可能交互空间是巨大的，只有一部分社会交互空间是有用的，并且信息交互空间还会随着智能体的学习进程而不断变化。
在强化学习中，研究者需要将可能的交互形式化为行动空间，将反馈形式化为奖励，需要数亿次交互才能获得具有信息量和亲社会的交互的子空间，这让很多研究人员望而却步。
所以，社会化的 AI 形式化，其实是一个迭代强化学习问题。

社会化 AI 的强化学习框架
智能体在与人类互动时，只有当人的回应包含对智能体有用的新信息时，回应才是有用的。因此，智能体必须与环境中数十万人的单次交互，从中选择能够引发对模型有用的新概念的社会互动。
为了平衡智能体的交互学习和学习交互两个目标，研究者引入了知识奖励（knowledge reward），引导智能体进行交互以获得有用的新概念，同时采用交互奖励（interaction reward），引导智能体进行符合环境中社会规范的交互。
在使用新概念改进模型的基础上，智能体会更新其策略，开始学习如何就人们有兴趣回应的新概念提出问题，来改进自身性能还比较差的部分。
2、问答互动

为了验证社会化 AI 框架在计算机视觉中的实用性，研究者在照片共享社交网络应用 Instagram 上部署了一个社会化智能体：它向人们提出自然语言问题，并从人的回应中提取答案，收集视觉知识。
这种使用自然语言来获取视觉知识的方法，可以用来测试很多计算机视觉识别任务，如对象检测（“图像中有什么？”）、细粒度识别（“花瓶里是什么花？”）、属性分类（“这张桌子是用什么材料做的？”）、知识库推理（“这份食物是素食吗？”）和常识推理（“这张照片是在冬天拍摄的吗？”）等等。
在这项工作中，研究团队设计了一个计算机视觉问答模型，其输入是一张图像和相应的自然语言问题，输出是一个自然语言答案。智能体提出的问题非常多样。

社会化智能体在Instagram上的互动示例
起初，识别模型不知道如何识别任何概念，但随着看到的特定概念的增长，它会对自己的判断更加肯定。比如，如果人们帮助智能体将图像中的动物识别为鹿，那么它的不确定性就会减少。
3、少即是多

在社会化 AI 的框架中，智能体同时有两个目标：一个发起社交互动，让人们根据信息数据作出回应；另一个是通过收集有用的数据来改进其基础模型。
这两个目标就是智能体的评估指标。
首先，为了评估该智能体获得回应的能力，我们需要测量对它所提问题的信息回应率（Informative Response Rate），也就是它收到问题答案（即获得有用的交互）的交互百分比。较高的信息回应率意味着对智能体对隐性社会规范有更好的理解，而较低的信息回应率则意味着人们不给予回应，这会减慢甚至停止智能体的学习进程。
其次，为了评估智能体识别新的视觉概念的能力，研究人员使用由 Amazon Mechanical Turk 的注释器收集的 50104 个社交媒体图像、问题和答案，构成测试集，来评估视觉识别模型的准确率。
实验进行了 8 个月，每个智能体可以发起至少 20 万次交互。当它们与人交互、并收集新的视觉知识时，信息回应率和识别准确率的变化结果表明，社会化智能体整体上优于其他智能体。
在 236000 次互动中，社会化智能体的信息回应率从最初的 22% 提高到 33%，相对提高了 50%。相比之下，主动学习和基线智能体在每次迭代后获得的回应较少，分别为 6% 和 12.3%。

主动学习智能体的弊端则在于它会提出更长、更难的问题，无法引起热人们的兴趣。例如，要回答“这些工具是为左撇子还是右撇子设计的？”这个问题，还得知道有关特定工具的知识以及是否可以用任何一只手操作。
相比之下，主动学习智能体共发起了 274893 次交互，但仅收到 30000 条回应，并且性能开始饱和，达到 31.4%，回应率也下降到 12.3%。
这再次表明，在某些社会环境中，纯粹的主动学习方法是不可行的。
整体而言，这项研究的重要创新在于，提出了一个智能体从与人的交互中学习的形式框架，并通过使用语言交互的视觉模型验证了该框架的实用性，这对于交互式智能体的研究或许会是一个极大帮助。

参考资料：
https://www.pnas.org/doi/10.1073/pnas.2115730119#:~:text=To%20enable%20socially%20situated%20AI,learn%20and%20learning%20to%20interact.
文 | 木子Yanni
嗨，这里是浅黑科技，在未来面前，我们都是孩子。
想看更多科技故事，欢迎戳→微信公众号：浅黑科技。

		自动登录	找回密码
密码			立即注册

像小孩子一样边问边学，能让人工智能更聪明吗？

本帖子中包含更多资源

最近发表

公社版块

关注我们