人工智能助力药物研发：上海药物所摘取Kaggle分子翻译国际赛冠军

茻匸 · 2021-6-9 08:22:11

责编丨迦溆

药物研发需求化学、生物、药理、毒理、临床等多学科的协作和多范畴知识的综合运用。通常，一个药物的研发数据多达数千至数万页，而且这些海量的原始数据是以各种各样的方式散落在不同的地方，如文献、专利、网页、图片、纸质印刷物等等。如何在海量研发原始数据中疾速获取真正有参考价值的“有效数据”是药物研发人员所面临的宏大应战。

近日，由国际制药公司百时美施贵宝发起的“百时美施贵宝-分子翻译”（Bristol-Myers Squibb – Molecular Translation，https://www.kaggle.com/c/bms-molecular-translation）应战比赛在著名数据迷信竞赛平台Kaggle（见附注）落下帷幕。作为生物医药大数据发掘范畴里最具应战性的成绩之一，这场比赛得到了广泛关注，吸引了来自世界各地的上千名数据迷信家，共计874支参赛队伍。经过三个多月的激烈角逐，最终来自中国迷信院上海药物所药物发现与设计中心的研讨生钟飞盛和熊嘉诚以及阿尔脉生物医药科技的刘小红博士组成的“SIMM DDDC”队伍，获得了此次大赛的第一名（见图1，奖金为5万美金），团队指点是来自中国迷信院上海药物研讨所的郑明月研讨员和蒋华良院士。

图1. Kaggle分子翻译应战赛最终排名状况

这次分子翻译应战赛的目的是从图片中辨认化学结构，并将其转换为文本方式的国际化合物标识（International Chemical Identifier, InChI）。在期刊和专利等出版物中，无机化合物通常以化学分子结构式的图片方式来表示。因此，自动从此类图像文件中辨认成化学结构，可以使化学家疾速地获取有参考价值的“化学数据”。此外，分子图像翻译得到的InChI文字化学式可以视作包含丰富语义的文本数据，可以与异样是文本方式描画的生物、药理、毒理、药代、甚至临床实验等其他数据和信息更方便的停止整合。比如，经过运用常规的自然言语处理技术就可以思索专利中某个分子结构所处的复杂语境，从而加深AI模型对该化学结构和性质的了解。

在分子翻译应战赛中，施贵宝构建了一个超过四百万的分子结构图像数据集，以3:2划分训练和测试集。按照Kaggle比赛规则，在计算得分的时分有Public Leaderboard和 Private Leaderboard之分，其中测试集中的25%的数据开放给参赛选手计算得分和排名，实时显示在 Public Leaderboard上。这个结果次要作用是为选手提供及时的反馈和动态展现比赛的停止状况，供选手参考调整比赛策略。测试集的剩余75%数据用于计算参赛选手提供模型的最终得分和排名，此即为 Private Leaderboard，在比赛结束后揭晓。比赛从2021年3月2日末尾后不久，“SIMM DDDC”团队在Public Leaderboard不断波动排在前三名左右，在进入5月份之后末尾波动占据榜首地位，并且在最终截止日（6月4日）以较大抢先优势同时斩获Public 和Private Leaderboard的冠军。值得一提的是，这次比赛吸引了众多专家（Expert）、大师（Master）甚至宗师（Grandmaster）级别的资深Kaggle数据迷信家，而最终夺冠的“SIMM DDDC”队伍中的三名选手都是第一次参加Kaggle比赛的新手玩家（Novice）。

“分子翻译”本质是化学结构式图像辨认（Optical Chemical Structure Recognition，OCSR）这一经典成绩，距今曾经有三十多年的研讨历史。大多数 OCSR 技术遵照基于规则的方法，其中关键步骤是图片矢量化之后将线条和节点解释为键和原子，触及到图像分割、图像细化、线条加强、光学字符辨认 (OCR) ，以及最终重建的分子图形或其他表示（见图2）。近年来，也有一些基于深度学习的处理方案。例如采用编码器-解码器架构的MSE-DUDL模型，其中编码器运用卷积神经网络，将包含化学图的图像编码到固定长度的嵌入表示，然后解码器运用循环神经网络将它们解码成文本方式的分子结构。

图2. 基于规则的化学结构式图像辨认方法

但是，真实世界中的化学结构图像不只大小不同、格式各异，而且能够存在各种噪声。比如旧纸质文档扫描得到的电子文档普遍存在失真成绩。如何处理诸如模糊、部分缺失、歪曲变形等成绩是OCSR技术的难点。比如，图3是化学专家普通可以正确辨认的分子结构，仅凭阅历即可对缺失的化学键或原子停止补全。但这类成绩对计算机模型通常非常具有应战，模型普通很难凭空构建图片中不存在（缺失）的部分。

图3. 存在噪声的分子结构图片

下图以一张有噪声的分子结构图片为例，显示了一款化学反应式图像辨认软件和本次比赛的冠军模型的结果对比：

图4. 化学结构图片辨认软件与本次分子翻译比赛的冠军模型的结果对比。a）一张带有噪声的分子结构图片；b）某款化学反应式图像辨认软件的辨认结果；c）本次比赛的冠军模型辨认并重建的分子结构；d）冠军模型分子翻译输入InChI编码

可以看出，现有的一些化学结构图片辨认工具仍存在分明的局限性，尚达不到处理真实世界成绩的技术需求。与此相比，此次冠军团队开发的模型可以很好的处理化学结构图片的噪声成绩，并且正确的重构分子的结构图（图4c）。此外，从分子翻译输入的文本编码来看，国际化合物标识InChI具有严厉的语法规则，任一字符出错都会大概率导致全体编码有效。因此，与常规化学结构式图像辨认义务不同，这次应战赛要求更高：参赛模型不只要辨认分子图像，而且要输入正确有效，符合InChI语法的分子结构（图4d）。

数据、算法和算力是人工智能技术发展的基础要素。近年来，人工智能在算法和算力方面一日千里，数据已逐渐成为限制人工智能技术进一步发展的短板。在药物研发和化学研讨范畴，数据匮乏的成绩愈加分明，如何有效地提取和整合可用于AI建模的高质量数据是亟待处理的成绩。上海药物所团队开发的分子翻译算法能从带有噪声的图像中准确地提取化合物结构信息，可以用于真实世界的化学和药学文献以及专利数据的自动发掘和分析，这将极大地促进生物医药和化学大数据的构建，进而为后续人工智能算法的开发奠定坚实的基础。蒋华良院士将这种运用AI技术发掘数据，并在此基础上构建AI算法的思绪称为AI2。这一思绪展现了AI经过自主“退化发展”完成从功能向才能转变的特征，是通往强者工智能道路上的积极尝试。

附注：
Kaggle比赛引见：Kaggle是国际上最著名的数据迷信竞赛平台之一，由于其受众广、影响深远和赛制公平，被视为是机器学习算法检验的试金石。许多企业、科研院所或政府机构会根据本人所关注的成绩在kaggle平台组织竞赛，经过悬赏高额奖金向全世界的研讨者寻求处理方案。该平台举行的比赛普通是为了处理某范畴面临的共性成绩或探求将来的发展方向，因此比赛的意义严重。其中，一些Kaggle竞赛的结果甚至为学界提供新的研讨方向。以2012年Merck公司发起的“分子活性预测”应战赛为例，在比赛中绝大部分队伍运用的是传统机器学习方法如随机森林模型，而Dahl和Hinton团队运用了当时新发展的深度神经网络。最终Hinton团队的深度学习模型从两百多只队伍中锋芒毕露，博得了这一赛事的冠军，这次比赛后来也成为人工智能范畴的标志性事情之一。自此之后，应用深度神经网络预测药物分子性质遭到越来越多的关注，推进了人工智能在药物研发范畴的发展。近年来，Kaggle平台举行的与药物研发相关的竞赛逐渐增多，如斯坦福大学组织的“开放疫苗：COVID-19mrna疫苗降解预测”，哈佛大学组织的“药物作用机制预测”， Human Protein Atlas 组织的“人类蛋白图谱-单细胞分类”应战赛，以及最近刚落下帷幕的有百时美施贵宝组织的 “Bristol-Myers Squib-分子翻译” 等多项竞赛。这些比赛的主题一方面彰显了机器学习社区对医药范畴浓重的兴味，另一方面阐明经过构建AI模型能实在处理该范畴面临的实践成绩。将来，随着数据的积累和算力、算法的进一步发展，可以预见AI在药物研发范畴将起到越来越重要的作用。

人工智能助力药物研发相关报道：
人工智能助力药物研发：J Med Chem发表人工智能药物发现专刊；
人工智能助力药物研发：基于深度生成模型的p300/CBP组蛋白乙酰转移酶抑制剂设计优化；
人工智能助力药物研发：醛氧化酶催化的药物代谢反应预测模型；
特别评述 | 人工智能助力药物研发：可解释性深度神经网络分子表征模型

制版人：十一

转载须知

【非原创文章】本文著作权归文章作者一切，欢迎个人分享分享，未经允许制止转载，作者拥有一切法定权益，违者必究。

		自动登录	找回密码
密码			立即注册

人工智能助力药物研发：上海药物所摘取Kaggle分子翻译国际赛冠军

本帖子中包含更多资源

最近发表

公社版块

关注我们