这个社会化 AI 的强化学习框架,重点在于探索智能体真正与人交互的学习方法:要开发社会化的 AI,智能体不仅要收集数据来学习新概念,还要学习如何与人互动来收集数据。
尤为重要的一点是,智能体必须要在交互学习(interacting to learn)和学习交互(learning to interact)这两个目标之间进行权衡。
这是非常具有挑战性的事情,因为智能体要遍历的可能交互空间是巨大的,只有一部分社会交互空间是有用的,并且信息交互空间还会随着智能体的学习进程而不断变化。
在强化学习中,研究者需要将可能的交互形式化为行动空间,将反馈形式化为奖励,需要数亿次交互才能获得具有信息量和亲社会的交互的子空间,这让很多研究人员望而却步。
所以,社会化的 AI 形式化,其实是一个迭代强化学习问题。
社会化 AI 的强化学习框架
智能体在与人类互动时,只有当人的回应包含对智能体有用的新信息时,回应才是有用的。因此,智能体必须与环境中数十万人的单次交互,从中选择能够引发对模型有用的新概念的社会互动。
为了平衡智能体的交互学习和学习交互两个目标,研究者引入了知识奖励(knowledge reward),引导智能体进行交互以获得有用的新概念,同时采用交互奖励(interaction reward),引导智能体进行符合环境中社会规范的交互。
在使用新概念改进模型的基础上,智能体会更新其策略,开始学习如何就人们有兴趣回应的新概念提出问题,来改进自身性能还比较差的部分。
2、问答互动
为了验证社会化 AI 框架在计算机视觉中的实用性,研究者在照片共享社交网络应用 Instagram 上部署了一个社会化智能体:它向人们提出自然语言问题,并从人的回应中提取答案,收集视觉知识。
这种使用自然语言来获取视觉知识的方法,可以用来测试很多计算机视觉识别任务,如对象检测(“图像中有什么?”)、细粒度识别(“花瓶里是什么花?”)、属性分类(“这张桌子是用什么材料做的?”)、知识库推理(“这份食物是素食吗?”)和常识推理(“这张照片是在冬天拍摄的吗?”)等等。
在这项工作中,研究团队设计了一个计算机视觉问答模型,其输入是一张图像和相应的自然语言问题,输出是一个自然语言答案。智能体提出的问题非常多样。