找回密码
 立即注册
搜索

北大研讨人员这次发现了AI「躺平」缘由,都是数据集的错

来源:arXiv 编辑:好困
【新智元导读】你有没有发现,每当AI发现了偷懒的小技巧之后,就不再去学习那些有应战的成绩并末尾「躺平」?北大的研讨人员表示:最好去看看你的训练集了。



在训练人工「智障」的时分,AI最后常常会学到一些莫明其妙的方式来完成人类的的义务。



北大研讨人员这次发现了AI「躺平」缘由,都是数据集的错-1.jpg



有一些AI就会去学习如何经过「卡bug」来疾速通关。



北大研讨人员这次发现了AI「躺平」缘由,都是数据集的错-2.jpg



还有一些AI学会了「只需把游戏暂停了,我就不会输」这个终极哲学。



北大研讨人员这次发现了AI「躺平」缘由,都是数据集的错-3.jpg



AI也想「躺平」





为了让模型可以提高准确性,通常会设置相应的奖励,但有时分模型在后期就发现了可以获得奖励的「捷径」。


但凡AI尝到了甜头,它就会不断选择去走这个「捷径」,不再去学习更困难的知识或者方法。


来自北京大学的研讨人员在训练言语模型的时分就发现:AI虽然能回答正确,但是它搞不明白为什么答案是对的,只知道遇到某类成绩用这个回答就可以了。


于是,研讨人员决议要把AI「扶起来」,让它们「努力学习」不能偷懒。



北大研讨人员这次发现了AI「躺平」缘由,都是数据集的错-4.jpg

论文地址:https://arxiv.org/pdf/2106.01024.pdf


这篇论文曾经发表在arxiv上,作者是来自北京大学王选计算机研讨所和北京大学计算言语学教育部重点实验室的Yuxuan Lai, Chen Zhang, Yansong Feng , Quzhe Huang,和Dongyan Zhao(赵东岩)


为什么AI总想去「躺平」?





虽然有些研讨曾经发现了AI总爱「躺平」的现象,但是他们并没有发现这个现象和数据集中的「捷径」成绩有关。


为此,论文提出了一个经过标注的全新数据集,其中包括对一个成绩的「捷径版」和「应战版」两种回答。



北大研讨人员这次发现了AI「躺平」缘由,都是数据集的错-5.jpg



数据集运用「释义」( paraphrasing )作为更复杂和更深化答案的标准,由于想要表达出学到的知识,语义了解是必要的。相比之下,「捷径」的答案是有如日期或其他关键字生成的,但没有任何上下文或推理。


研讨人员发现,训练集中「捷径版」样本越高,就越会妨碍模型学到「释义」从而去处理具有应战性的成绩。而模型在回答「捷径版」成绩时的表现则基本波动。


文章表明,当训练集中有足够多的「应战版」成绩时,模型不只能更好地了解「应战版」成绩,而且也能正确回答「捷径版」成绩。



北大研讨人员这次发现了AI「躺平」缘由,都是数据集的错-6.jpg



AI是如何学会「躺平」的?



文章表示,在训练的早期阶段,模型往往会找到最简单的方法达到梯度下降从而拟合训练数据。而且由于「捷径」需求较少的计算资源来学习,因此拟合这些技巧会变成一个优先事项。


之后,由于模型学会的「捷径」可用于正确回答大部分训练成绩,因此剩余的成绩便无法激励模型继续去探求「应战版」成绩需求的复杂处理方法。


有没有办法把AI「扶起来」?





除了NLP架构本身的成绩外,也很能够是训练过程中标准优化和资源保护的结果,以及让模型在短工夫内以有限的资源去获得结果的压力。


如文章所说的那样,数据预处理范畴能够需求思索将数据中的「捷径」视为一个亟待处理的成绩,或者是修正 NLP 架构从而达到优先思索更具应战性的数据的效果。


参考材料:

https://arxiv.org/pdf/2106.01024.pdf






—完—
欢迎点赞~ 关注 新智元 及时了解人工智能新动态~
回复

使用道具 举报

大神点评3

甜晨露 2021-6-8 16:57:58 显示全部楼层
占位编辑
回复

使用道具 举报

宝骏730 2021-6-9 15:05:41 显示全部楼层
赞一个!
回复

使用道具 举报

猪麦_ 2021-6-10 15:24:14 显示全部楼层
非常好,顶一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册