找回密码
 立即注册
搜索

“AI幻觉”怎么来的?向人工智能大模型求证网络传言,结果竟然是……





最近,DeepSeek等人工智能大模型异常红火,“包罗万象”“无所不能”等特点,让越来越多的网友将它们作为生活帮手。那么,如果看到一条难辨真伪的网络传言,请大模型帮忙判断真伪,结果会是什么呢?

最近,解放日报·上海辟谣平台记者尝试在求证辟谣中使用人工智能大模型,却发现按照现有的技术能力,大模型辟谣能力有限,“造谣”却信手拈来。

大模型坦言“我推测的”

“112岁的老中医临终馈赠”的帖子近期曾登上热搜榜,但很多网友对“老中医”的身份,以及帖子介绍的养生之道产生怀疑。那么,大模型能否帮助人们求证呢?

记者向多个大模型询问“是否有112岁的老中医”,大模型给出了某地有符合条件的老中医的结果。人工核查发现,大模型的结论没有错。但在调查这名老中医是否说过帖子里的话时,大模型开始“捣糨糊”:一开始,大模型表示老中医说过帖子里的话,可当记者要求大模型提供准确出处时,大模型仅表示老中医所在地的官方媒体进行过报道;记者追问官方媒体的报道链接或原文,大模型只是回复“可能有”。然而,进一步的人工核查发现,对应媒体根本没有报道过与帖子相似或相关的内容。



当记者要求大模型提供官方媒体的报道原文或链接时,大模型的答复充满了“可能”“或许”“无法确定”
在求证“食物相克的说法是否准确”这一线索时,大模型更是信口开河。记者要求大模型提供的答案来自权威专家、权威机构或官方媒体,大模型的回答中空出了专家位置,又表示部分结论来自“中国营养学会”。但面对“中国营养学会对这个问题的说明原文在哪里”等追问,大模型表示无法直接找到,并建议记者人工检索。不过,人工检索也没有对应的内容。



大模型的答复里模糊掉了专家姓名,并杜撰称“中国营养学会”曾分析过相关话题
还有,记者在调查保温杯爆炸的原因时,要求大模型提供真实案例,并明确要求案例来自官方媒体报道。大模型提供了4个案例,但两个案例无法提供报道链接,并在记者追问中承认有些案例是社交平台的“口口相传”。



大模型给出的“真实案例”


被要求提供真实案例的报道链接后,大模型承认有两个案例无法提供


大模型将无法求证的案例归咎于“社交平台、邻里口口相传”
面对那么多的“可能”“或许”“不确定”,还能相信大模型给出的结果吗?

事实上,在每次尝试中,记者都对大模型提供的参考信息及链接进行了人工查证,发现大模型在回答很多问题时,参考的信息不一定来自官方机构或权威媒体,而是互联网上的各种信息,包括那些存在明显差错的“自媒体说”。

既然参考资料都不准确,又怎么能保证给出的结果准确呢?事实上,大模型给出的答案虽然言之凿凿,很多都经不起追问,最终误导了用户。

大模型会为什么“造假”?

客观地说,大模型没有造假或造谣的“主观意愿”。造成大模型“一本正经胡说八道”的真正原因是“AI幻觉”——简而言之,就是大模型想尽办法完成用户交办的任务,但在能力不足时,只能基于自己的“知识面”,推测出了相关结果;可惜,结果是错的

那么,大模型为什么会能力不足呢?一个是数据库有局限,另一个是技术有缺陷。

最近,谣言“每20个80后就有1人去世”就被认为是大模型造假的结果。经人工溯源,这条假消息大概率出自某大模型的某次回答——不过,大模型不是故意造谣,而是基于其尚未更新且有限的数据推论出了这一结论。至于“推论”的过程,由大模型“算法”决定;算法的缺陷导致大模型未能判断数据准确或逻辑正误,从而给出错误回答。此后,引用结果的用户未经核实就通过社交平台传播相关结论,导致谣言扩散。

归根结底,大模型不一定故意造谣,但受制于现有的发展水平,极有可能产生谣言

其实,对于自身缺陷,各个大模型很有“自知之明”。

比如,DeepSeek在回答记者“为什么你的回答有时不准确”时承认自己存在“训练数据有局限性”“技术原理的固有缺陷”等问题。



DeepSeek的分析
它表示,互联网数据包含错误信息、偏见、过时内容,模型会无差别学习这些内容;训练数据截止于某个时间点,无法实时更新,加上大模型基于概率、而非逻辑推理或事实核查生成文本,所以会出现错误。

基于以上现状,DeepSeek总结说:“大模型的‘不准确’……将逐步改善,但短期内仍需用户保持批判性思维,合理使用其能力。”



DeepSeek的总结和建议
减少误导有诀窍

一个又一个的AI幻觉案例已经向人们证明,鉴于大模型目前的水平,还不能完全信赖它。但对普通用户来说,恐怕很难发现“一本正经胡说八道”中的漏洞。那么,有什么办法能尽量减少被大模型误导呢?

在业内人士看来,“怎么问”很重要

AI工具研究者田威给出几条操作性很强的建议。首先,优化提问方式,“与 AI 交流需要明确和具体,避免模糊或开放性的问题,提问越具体、清晰,AI 的回答越准确。同时,我们在提问的时候要提供足够多的上下文或背景信息,这样也可以减少AI胡乱推测的可能性。”

他举例,在提问时可以设定边界,包括要求大模型在指定的资料范围中回答,如把“介绍 ChatGPT的发展历程”这个问题限定为“请仅基于OpenAI官方2022-2023年的公开文档,介绍ChatGPT的发展历程”;或者要求大模型对回答中的推断内容进行标注,如“分析特斯拉2025年的市场份额,对于非官方数据或预测性内容,请标注[推测内容]”。

其次,要求大模型分批输出结果。大模型根据概率生成内容,意味着单性生成的内容越多,出现AI幻觉的概率越大。用户如果要大模型生成一篇长文章,可以要求它列提纲后分段输出,逐段审核。这样更容易把控生成内容的质量。

最后,要求不同大模型回答同一个问题,实现交叉验证。通过比对不同大模型的答案,有助于获得更全面的认识。

此外,就记者求证网络信息的“实战”经验看,“追问”也是避免被大模型回答误导的有效方式例如,当大模型援引了“专业人士”“专业机构”“文献资料”时,可以“追问”大模型提供对应的证明材料,包括链接、原文、视频等,通过查看相关材料,判断大模型的回答到底是“有理有据”还是“胡编乱造”。从实践看,“一本正经的胡说八道”往往在追问“请提供原文链接”时就会露馅。

原标题:“AI幻觉”怎么来的?向人工智能大模型求证网络传言,结果竟然是……

题图来源:上观题图

来源:作者:解放日报 任翀

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册