印第安纳大学布鲁明顿分校的计算机科学家 Giovanni Luca Ciampaglia 表示,业内对这种鉴定算法的开发目前普遍处于起步阶段,对于一篇报道,选取哪些因素作为判定其可信度的方法也是五花八门。
不过这些程序对一则新闻的关注点大致可分为两类:报道的内容和叙述的口吻。
上文提到的 Ciampaglia 和他的科研团队就着眼于报道的主要观点,主语和宾语间的联系有无客观事实支撑。他们的算法收纳了大量 Wikipedia 词条页面的右侧信息栏(“Infobox”)中的信息,并将主词条与所有副词条配对,形成一个以名词及名词间联系为主的数据库。如果一篇报道的主要观点中,主语与后面的描述性名词之间的联系能在该数据库中以较短路径追溯到,那么这条新闻的主旨就相对可信。
曹娟的团队选取了微博上传播的真伪新闻各 73 条,他们的算法通过分析这些新闻下共约 5 万条持支持或反对意见的评论,最终以 84% 的正确率识别出了假新闻。该研究成果也曾在的美国人工智能进步协会(Association for the Advancement of Artificial Intelligence)2016 年大会上展出。