找回密码
 立即注册
搜索

像小孩子一样边问边学,能让人工智能更聪明吗?

80 多年前,图灵提出了著名的图灵测试。
这个测试非常简单,就是让一个人与一台机器随便聊天,在不知道对方是机器的前提下,如果你无法分辨和你对话的是真人还是机器,就说明这台机器具有智能。
如果你一眼就看穿真相,只能说明这台机器还很蠢,还配不上“人工智能”这个称呼。
图灵测试得到了很多人的认可,但也有人持不同看法,这个人叫做赛尔。
赛尔并非和图灵有过节,在“如何判断一个机器是否具有智能”问题上,赛尔有自己的理由,也就是“汉字屋”。
想象一个:一间密闭小屋,屋里坐着一个不懂汉语的美国人,屋外守着一个不懂英语的中国人。
美国人想营造出自己精通汉语的假象,中国人想知道屋里那哥们是真懂汉语还是在搞笑。
实际情况是,美国人不懂汉语,但他低头看着手里的中文对话宝典,根本不慌。
假设屋外递进来的纸条上写着“你吃饭了吗?”,美国人翻开词典,找到问题及对应回答,照抄下来再递出去就行:“已经吃了,你呢?”
如果这本中文对话宝典的内容足够充实,查询也足够便捷,那么在这样一来一往间,屋外的人想找到破绽并非易事,因为宝典总能帮屋里的人做出最优回应。
终于,屋外的人放弃了,因为他实在无法判断屋里的人是不是真的精通汉语,虽然偶尔回答刻板,但又没出大错,实在难以下定论。
同理,假设屋内是一台机器,用类似的手段与人交流,对屋外的人来说,别说判断它是不是机器,恐怕连它懂不懂汉语都难以判断。
换个角度来看,图灵测试之所以经久不衰,很大程度是因为相当比例的人工智能,确实是不太聪明。
从人工智能诞生至今,研究者一直试图从人类自己身上总结智慧经验,再将其化作代码,在人工智能身上复现,以此来实现真正的智能。
所以,如同给人工智能喂记忆面包一样,研究者让人工智能快速吞咽数据,可即便上下五千年的数据都喂了,人工智能仍然表现不佳。
或许是因为人工智能总在与世隔绝的虚拟世界中独自学习,缺少与外界的互动,才导致当一个智能体出现在真实世界中时,不断被持续变化的难题所困住,无法脱身。
将智能体从闭关修炼的状态里“解放”出来,让它能够在广阔的社会情境中学习,即是一个新挑战,也是一个新机会。
最近,斯坦福大学计算机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人,针对此问题提出了一种新的研究框架:社会化人工智能(socially situated AI),即智能体通过在现实社会环境中与人的持续互动来学习。



1、强化学习框架

这个社会化 AI 的强化学习框架,重点在于探索智能体真正与人交互的学习方法:要开发社会化的 AI,智能体不仅要收集数据来学习新概念,还要学习如何与人互动来收集数据。
尤为重要的一点是,智能体必须要在交互学习(interacting to learn)和学习交互(learning to interact)这两个目标之间进行权衡。
这是非常具有挑战性的事情,因为智能体要遍历的可能交互空间是巨大的,只有一部分社会交互空间是有用的,并且信息交互空间还会随着智能体的学习进程而不断变化。
在强化学习中,研究者需要将可能的交互形式化为行动空间,将反馈形式化为奖励,需要数亿次交互才能获得具有信息量和亲社会的交互的子空间,这让很多研究人员望而却步。
所以,社会化的 AI 形式化,其实是一个迭代强化学习问题。



社会化 AI 的强化学习框架
智能体在与人类互动时,只有当人的回应包含对智能体有用的新信息时,回应才是有用的。因此,智能体必须与环境中数十万人的单次交互,从中选择能够引发对模型有用的新概念的社会互动。
为了平衡智能体的交互学习和学习交互两个目标,研究者引入了知识奖励(knowledge reward),引导智能体进行交互以获得有用的新概念,同时采用交互奖励(interaction reward),引导智能体进行符合环境中社会规范的交互。
在使用新概念改进模型的基础上,智能体会更新其策略,开始学习如何就人们有兴趣回应的新概念提出问题,来改进自身性能还比较差的部分。
2、问答互动

为了验证社会化 AI 框架在计算机视觉中的实用性,研究者在照片共享社交网络应用 Instagram 上部署了一个社会化智能体:它向人们提出自然语言问题,并从人的回应中提取答案,收集视觉知识。
这种使用自然语言来获取视觉知识的方法,可以用来测试很多计算机视觉识别任务,如对象检测(“图像中有什么?”)、细粒度识别(“花瓶里是什么花?”)、属性分类(“这张桌子是用什么材料做的?”)、知识库推理(“这份食物是素食吗?”)和常识推理(“这张照片是在冬天拍摄的吗?”)等等。
在这项工作中,研究团队设计了一个计算机视觉问答模型,其输入是一张图像和相应的自然语言问题,输出是一个自然语言答案。智能体提出的问题非常多样。



社会化智能体在Instagram上的互动示例
起初,识别模型不知道如何识别任何概念,但随着看到的特定概念的增长,它会对自己的判断更加肯定。比如,如果人们帮助智能体将图像中的动物识别为鹿,那么它的不确定性就会减少。
3、少即是多

在社会化 AI 的框架中,智能体同时有两个目标:一个发起社交互动,让人们根据信息数据作出回应;另一个是通过收集有用的数据来改进其基础模型。
这两个目标就是智能体的评估指标。
首先,为了评估该智能体获得回应的能力,我们需要测量对它所提问题的信息回应率(Informative Response Rate),也就是它收到问题答案(即获得有用的交互)的交互百分比。较高的信息回应率意味着对智能体对隐性社会规范有更好的理解,而较低的信息回应率则意味着人们不给予回应,这会减慢甚至停止智能体的学习进程。
其次,为了评估智能体识别新的视觉概念的能力,研究人员使用由 Amazon Mechanical Turk 的注释器收集的 50104 个社交媒体图像、问题和答案,构成测试集,来评估视觉识别模型的准确率。
实验进行了 8 个月,每个智能体可以发起至少 20 万次交互。当它们与人交互、并收集新的视觉知识时,信息回应率和识别准确率的变化结果表明,社会化智能体整体上优于其他智能体。
在 236000 次互动中,社会化智能体的信息回应率从最初的 22% 提高到 33%,相对提高了 50%。相比之下,主动学习和基线智能体在每次迭代后获得的回应较少,分别为 6% 和 12.3%。



主动学习智能体的弊端则在于它会提出更长、更难的问题,无法引起热人们的兴趣。例如,要回答“这些工具是为左撇子还是右撇子设计的?”这个问题,还得知道有关特定工具的知识以及是否可以用任何一只手操作。
相比之下,主动学习智能体共发起了 274893 次交互,但仅收到 30000 条回应,并且性能开始饱和,达到 31.4%,回应率也下降到 12.3%。
这再次表明,在某些社会环境中,纯粹的主动学习方法是不可行的。
整体而言,这项研究的重要创新在于,提出了一个智能体从与人的交互中学习的形式框架,并通过使用语言交互的视觉模型验证了该框架的实用性,这对于交互式智能体的研究或许会是一个极大帮助。







参考资料:
https://www.pnas.org/doi/10.1073/pnas.2115730119#:~:text=To%20enable%20socially%20situated%20AI,learn%20and%20learning%20to%20interact.
文 | 木子Yanni
嗨,这里是浅黑科技,在未来面前,我们都是孩子。
想看更多科技故事,欢迎戳→微信公众号:浅黑科技。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册