这次分子翻译应战赛的目的是从图片中辨认化学结构,并将其转换为文本方式的国际化合物标识(International Chemical Identifier, InChI)。在期刊和专利等出版物中,无机化合物通常以化学分子结构式的图片方式来表示。因此,自动从此类图像文件中辨认成化学结构,可以使化学家疾速地获取有参考价值的“化学数据”。此外,分子图像翻译得到的InChI文字化学式可以视作包含丰富语义的文本数据,可以与异样是文本方式描画的生物、药理、毒理、药代、甚至临床实验等其他数据和信息更方便的停止整合。比如,经过运用常规的自然言语处理技术就可以思索专利中某个分子结构所处的复杂语境,从而加深AI模型对该化学结构和性质的了解。
附注:
Kaggle比赛引见:Kaggle是国际上最著名的数据迷信竞赛平台之一,由于其受众广、影响深远和赛制公平,被视为是机器学习算法检验的试金石。许多企业、科研院所或政府机构会根据本人所关注的成绩在kaggle平台组织竞赛,经过悬赏高额奖金向全世界的研讨者寻求处理方案。该平台举行的比赛普通是为了处理某范畴面临的共性成绩或探求将来的发展方向,因此比赛的意义严重。其中,一些Kaggle竞赛的结果甚至为学界提供新的研讨方向。以2012年Merck公司发起的“分子活性预测”应战赛为例,在比赛中绝大部分队伍运用的是传统机器学习方法如随机森林模型,而Dahl和Hinton团队运用了当时新发展的深度神经网络。最终Hinton团队的深度学习模型从两百多只队伍中锋芒毕露,博得了这一赛事的冠军,这次比赛后来也成为人工智能范畴的标志性事情之一。自此之后,应用深度神经网络预测药物分子性质遭到越来越多的关注,推进了人工智能在药物研发范畴的发展。近年来,Kaggle平台举行的与药物研发相关的竞赛逐渐增多,如斯坦福大学组织的“开放疫苗:COVID-19mrna疫苗降解预测”,哈佛大学组织的“药物作用机制预测”, Human Protein Atlas 组织的“人类蛋白图谱-单细胞分类”应战赛,以及最近刚落下帷幕的有百时美施贵宝组织的 “Bristol-Myers Squib-分子翻译” 等多项竞赛。这些比赛的主题一方面彰显了机器学习社区对医药范畴浓重的兴味,另一方面阐明经过构建AI模型能实在处理该范畴面临的实践成绩。将来,随着数据的积累和算力、算法的进一步发展,可以预见AI在药物研发范畴将起到越来越重要的作用。
人工智能助力药物研发相关报道:
人工智能助力药物研发:J Med Chem发表人工智能药物发现专刊;
人工智能助力药物研发:基于深度生成模型的p300/CBP组蛋白乙酰转移酶抑制剂设计优化;
人工智能助力药物研发:醛氧化酶催化的药物代谢反应预测模型;
特别评述 | 人工智能助力药物研发:可解释性深度神经网络分子表征模型