找回密码
 立即注册
搜索

1篇能用的都没有!剑桥大学新研讨打脸AI新冠“看片”

动力 2021-6-14 16:02:20 显示全部楼层 阅读模式
丰色 鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
搜集的全部新冠机器学习“看片”论文,一篇能用的都没有?!

就在“广州两名医务人员核酸检测呈阳性”的旧事再度牵动大家伙的神经之际,一项来自剑桥大学的新研讨也在外网上点燃了炸药桶。



打从疫情之初,就有不少机器学习范畴的研讨人员,希望借助AI之力,协助医务人员更好地保护本人:

去年1月到10月,就有2000多篇相关论文发表。

但是,就在AI比较成熟的看片范畴,剑桥大学的结论却让人大跌眼镜:

搜集到的关于用AI停止新冠病毒医学图像检测、诊断的论文,都存在严重缺陷和偏向,没有临床运用的能够性。

论文已发表在Nature Machine Intelligence上。



而如此“残酷”的结果,正可谓一石激起千层浪,专家学者纷纷分享讨论不说,也在社交媒体上引发了网友的热议。



有不少相关从业者表示:“这给我们上了重要的一课。”



终究是怎样一回事?

为什么不能用?

详细而言,剑桥大学的研讨人员一末尾在bioRxiv、medRxiv、arXiv等预印本论文平台,以及EMBASE和MEDLINE数据库中,按照“机器学习模型”、“CXR(胸部X光照片)/CT图像诊断、预测”这样的关键词,搜集到了2212项相关研讨。



从中剔除掉缺乏外部验证、忽略了数据源或模型训练信息不残缺的论文之后,经过初筛的论文有415篇

而在进一步提高对论文的要求,比如扫除掉RQS(放射性质量评分)<6、未能经过CLAIM(医学影像人工智能检查表)的模型之后,当选最终评审阶段的论文有62篇

而这62篇,都没有潜在的临床运用价值

对此,论文作者之一、来自剑桥大学医学部的James Rude博士表示:

国际机器学习界在协助应对Covid-19盛行病上做出了宏大的努力。这些早期研讨让我们看到了一些希望,但它们在方法和报告(methodology and reporting)方面的缺陷非常普遍,我们审查的论文中没有一篇达到支持临床运用所必需的健壮性和可反复性。

在这62篇论文中,有55篇被发现由于各种成绩而存在高成见风险,包括依赖公共数据集,其中许多疑似阳性Covid-19的CT图像也没检测出来。



△每篇论文的数据目的

一切这些模型在研讨中都看起来高度准确,一到临床就原形毕露(例如不同类型的患者或运用不同设备获得的成像扫描)。

这“全军覆没”的背后,次要还是数据集的成绩。

其中许多模型都是在样本数据集极小的状况下训练的,有的数据还只来自一家医院,换个城市换个医院,这模型完全就不见效了。

也有模型是基于公开的“Frankenstei数据集”来停止训练的。这样的大型数据集存在的成绩是,随着工夫推移,数据集不断发展、交融新的数据,这些变化很能够使得最后的结果无法复现。

更有甚者,训练和测试用的是同一个数据集。



当然,这也许不是研讨人员存心这么做,由于法律和商业缘由,很多医疗数据集都得保密,可供研讨人员训练和验证的大型又多样化的数据真的很少。

这也导致医疗保健范畴出品的机器学习研讨特别难以复制,麻省理工就做过一项研讨:

医疗AI论文复现率只要23%,而自然言语处理范畴为58%,计算机视觉范畴则达80%。

但数据集还只是一方面。其中也有方法设计不当和缺乏放射科医生和临床医生参与的成绩。

例如,有模型的训练集采用儿童的CT图像作为“非Covid-19”数据、成人的作为“Covid-19”数据。

但实践上,在儿科就诊的儿童,在人体解剖结构上与成人有很大差异。这样的数据设置并不合理,训练出来的模型就会存在很大偏向。

“而无论大家是用机器学习来预测天气还是检测疾病,确保不同的专家在一同工作并说相反的言语很重要,这样才可以关注正确的成绩。” 惋惜的是,很多模型都没有让放射科医生和临床医生参与出去。

另外,工夫限制也可以被解释为这一系列成绩的“借口”。

“这些妨碍都必须克制,不然就要面对信任危机”

当然,大量此类论文发表却全部无法运用的背后,阐明这方面论文的审查制度也有成绩,例如审稿人缺乏对机器学习的深化了解,或对知名机构或公司自觉信任等等,导致这些论文被草草经过。

但最重要是审稿机构缺乏分歧的标准来评价医学范畴的机器学习研讨。剑桥大学的研讨人员以为作者和审稿人之间需求建立一套共同的标准,确保研讨真的处理了实践成绩。



最后,虽然大量的Covid-19模型被发现无法复现运用于临床,剑桥大学的研讨人员表示,经过一些关键的修正,这些机器学习模型还是可以成为抗击新冠的有力工具。

他们给出了一些总结和建议:


  • 公共数据集能够导致严重的偏向风险,慎重运用;
  • 为了使模型适用于不同的群体和独立的外部数据集,训练数据应该保持多样性和适当的大小
  • 除了更高质量的数据集外,还需求可复现和外部验证的证明,这样才能添加模型被推进并整合到将降临床实验中的能够性。
并表示这些妨碍都必须克制,不然人们对人工智能的信任将从何谈起?

此外由于隐私限制难以获取医疗数据,除了采取联邦学习,也可以参考一下最新发表在Nature封面上的结合学习 (Swarm Learning ),一项优于联邦学习的医疗数据共享技术。



AI看片到底行不行?

面对剑桥大学的结论,有网友感到忧心忡忡:

如今,AI/ML的价值和可信度正在被稀释。当我听到“AI处理方案”、“AI驱动”这样的字眼时,甚至会感到紧张。



也有网友以为,这与当下机器学习范畴论文“灌水”之风不有关系。



但也有网友客观地分析,以为AI的确曾经在医疗影像方面发挥了作用,只是它们替代不了医生,更多是在扮演医生的助手,并且目前,AI并没有办法去应对一些真正困难的状况。





而针对文章谈到的数据成绩,有不少网友表示赞同:

数据并不是独一的成绩,但似乎是最直接的缘由。

是时分为AI模型和数据集构建“蛋白质银行”这样的数据库了。

理想上,无论你对AI医疗能否持怀疑的态度,如今,至少像AI看片这样的医疗服务,曾经真逼真切离开了大众身边。

此前,量子位的同事就曾在中关村医院让AI给拍了一次CT。

而在与一线医生的沟通交流中,也有在三甲医院担任体检中心的主任医生向我们泄漏:如检测肺结节这样的单点运用,曾经可以协助医生减轻负担。

甚至还有放射科医生表示,“如今不用(AI辅助看片),还有点不习气”。

Stat News则对此回复称:

机器学习在医疗范畴蓬勃发展,同时也面临着信誉危机。

那么,你觉得AI医疗到底行不行呢?

— 完 —

量子位 QbitAI · 头条号签约
关注我们,第一工夫获知前沿科技动态

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评5

hebihuanuo3 2021-6-14 16:07:43 显示全部楼层
医疗AI论文复现率只要23%,而自然言语处理范畴为58%,计算机视觉范畴则达80%。
回复

使用道具 举报

LOveQzh倒数 2021-6-14 16:17:01 显示全部楼层
影像做为判别目的只要一个前提条件,是新冠的接触者,其它没有任何意义
回复

使用道具 举报

跳舞的剪刀 2021-6-14 16:25:34 显示全部楼层
这就逼着AI公司本人开医院做医疗,搜集数据
回复

使用道具 举报

哟西hgnd 2021-6-14 16:29:12 显示全部楼层
论文本来就是发的,不是用来用的
回复

使用道具 举报

芬里斯之子 2021-6-14 16:29:33 显示全部楼层
哈哈,缺乏了解,如何判别!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册