找回密码
 立即注册
搜索

图像识别和机器学习助力基因组嵌合突变检测

近日,来自加州大学圣地亚哥分校的研究团队在Nature Biotechnology上发表文章,开发了一种基因嵌合突变检测工具DeepMosaic。该工具基于深度学习方法,能够做到比人眼更敏锐地发现基因组中的低频突变,其中人工神经网络的灵感则是来源于上世纪中期对人脑神经信号处理方式的理解。


以下是作者团队为果壳撰写的论文解读。


嵌合突变是遗传突变的一种,指的是发生在个体一部分细胞中的突变,可以反映胚胎发育[1]、环境和衰老等因素对个体基因组的影响[2],也是包括癌症在内的数百种人类疾病的遗传学病因之一[3]。嵌合突变的比例在不同类别之间差异很大,非癌症疾病和正常人群中的嵌合突变,因其较低的突变比例和较高的假阳性率,比人类癌症基因组中的高频嵌合突变更难检测。



很多现有的嵌合突变检测方法,在特定情况下难以满足研究需求。首先,大多方法都是基于癌症相关的嵌合突变检测,并且难以区分测序过程中产生的误差和真实突变;其次,很多情况下都需要研究人员人工检查原始数据,利用经验判检测到的嵌合突变“像不像真的”。人眼核对的过程费时、费力,且难以标准化,因此开发模拟人眼检测、特异性针对非癌症样本及正常组织样本的嵌合突变检测工具有重要意义[4,5]。


来自加州大学圣地亚哥分校、Rady儿童遗传学研究所杨晓旭博士和Joseph Gleeson教授为共同通讯作者、徐歆为共同第一作者,于2023年1月2日在Nature Biotechnology发表了研究长文Control-independent mosaic single nucleotide variant detection with DeepMosaic介绍了他们开发的基于深度学习的嵌合突变检测工具DeepMosaic(https://github.com/Virginiaxu/DeepMosaic)[6]。




论文截图



该团队开发的DeepMosaic工具一大亮点即运用了深度学习方法。深度学习,也称基于深度人工神经网络的机器学习方法,是一种人工智能学习方法,通过训练令机器模拟人类的学习过程。这一方法在网络构建完成后,利用大量数据进行参数训练,经过独立数据中的应用,最后解决实际问题。在该过程的基础上,迁移学习方法更进一步,将已经或部分完成训练的网络应用于新场景,利用特异性数据训练后,能够让已有网络举一反三,解决新的问题。


DeepMosaic所训练的模型结构来自已有的机器视觉识别模型,对于图像细节和图像形状敏感性很高,精度有时甚至能超过人眼。


“DeepMosaic的应用场景之一,就是对未知局灶性癫痫的检测。”Joseph Gleeson教授说,“癫痫在人群中的发病率约为4%,其中1/4的局灶性癫痫对普通抗癫痫药物有抗药性,通常只有手术切除患部才能缓解。这些患者的病症很多其实是嵌合突变引起的,我们之前的方法对这些患者的突变检测率较低,有的患者在切除患处后还会复发。


“应用了DeepMosaic工具以后,我们对嵌合突变的检测阳性率翻倍了,且经过独立实验证实检测出的突变都为致病突变。成功检测出致病嵌合突变,是我们对这些未知疾病诊断治疗的第一步,也是最重要的一步。”


杨晓旭博士向果壳解释了应用这一工具的过程。他们首先将原始测序数据重新编码成图像,并且对“正常”数据和“突变”数据做了区分,这一步模拟了人眼检测突变的过程,将一个字符串统计问题转变成了一个图像识别问题。“Google的DeepVariant方法首先采取了这种策略,但只能应用于遗传性突变,无法区分嵌合突变”。


研究者们生成了3组独立模拟数据集,6组实验验证过的真实数据集,对DeepMosaic模型进行训练、测试和评估。他们应用了基因组中约180,000个模拟突变和真实突变进行迁移训练,在10个不同的网络结构中进行独立模型选择,最终筛选出了在独立测试集上表现最好的模型。


“为了证实模拟数据和真实数据混合的训练集的表现,我们比较了利用100%的模拟数据、50%模拟和50%真实数据、100%真实数据训练的模型。”杨晓旭说,“结果表明在独立测试集上,真实数据和模拟数据混合组的结果,甚至略好于100%真实数据训练的模型,说明模拟数据让模型在面对未知数据时,表现出了更好的适应性。”




图1:测序数据进行图形冲编码后由深度神经网络进行特征提取,结合其他原始测序数据以外的基因组信息进行分类 | 团队供图



“我们利用619740个独立模拟数据、181个非癌症疾病外显子组,和16个正常人类样本全基因组的530个实验验证突变,在表现最好的网络模型上进行性能评估,也同时比较了2400个癌症外显子上的表现。”文章共同第一作者、原UCSD研究员、Novartis数据科学家徐歆说,“在基因组和外显子组的非癌症测序数据上,DeepMosaic表现优于已有检测工具。对模型的可解释性分析表明,模型给予较高权重的很多细节,也是人类专家在检查突变时关注的细节。”




图2:DeepMosaic利用3组独立模拟数据和6组独立实验数据进行模型训练、评估和性能测试。数据模拟策略包含基于不同测序错误模型的生成数据和基于真实数据的碱基替换数据。实验测序数据包含不同测序深度的基因组和外显子组数据 | 团队供图


研究者们利用癌症样本测试DeepMosaic,并比较了基于癌症样本开发的深度学习模型NeuSomatic。在测试中研究者发现,NeuSomatic更适用于癌症相关嵌合突变的检测,而DeepMosaic主要适合非癌症及正常样本的突变检测。


DeepMosaic目前对所有科学研究者开源。开发团队表示,DeepMosaic并不只是单纯的突变检测工具,而是能够让用户基于团队提供的训练平台,利用自己的数据训练出针对特定突变检测的个性化模型。在该工具的基础上,基于图像识别的突变检测概念能广泛地应用于更多科学研究中,促进疾病诊断检测和其他基础研究的发展。


作者团队利用DeepMosaic和其他检测工具在皮质发育不良患者样本中发现了新的致病突变并利用手术切除患者脑组织和小鼠模型中证实图变的作用,难治性癫痫的发病机理提供了新思路,研究于近日发表在Nature Genetics上(https://www.nature.com/articles/s41588-022-01276-9)。




论文截图



参考文献

[1] Breuss, M.W. et al. Somatic mosaicism reveals clonal distributions of neocortical development. Nature 604, 689-696 (2022).
[2]Paquola, A.C.M., Erwin, J.A. & Gage, F.H. Insights into the role of somatic mosaicism in the brain. Curr Opin Syst Biol 1, 90-94 (2017).
[3]Yang, X. et al. MosaicBase: A Knowledgebase of Postzygotic Mosaic Variants in Noncancer Disease-related and Healthy Human Individuals. Genomics Proteomics Bioinformatics 18, 140-149 (2020).
[4]Yang, X. et al. Developmental and temporal characteristics of clonal sperm mosaicism. Cell 184, 4772-4783 e4715 (2021).
[5]Dou, Y., Gold, H.D., Luquette, L.J. & Park, P.J. Detecting Somatic Mutations in Normal Cells. Trends in genetics : TIG 34, 545-557 (2018).
[6]Yang, X. et al. Control-independent mosaic single nucleotide variant detection with DeepMosaic. Nature biotechnology (2022).


作者:杨晓旭编辑:靳小明排版:尹宁流题图:DALL-E2根据文字描述自动生成图片题图来源:团队供图

研究团队


通讯作者 Joseph Gleeson:加州大学圣地亚哥分校、Rady儿童遗传医学研究所讲席教授。Gleeson教授实验室招聘遗传学、神经科学、生物信息学博士后和实习生,主要方向是神经发育的遗传学和机制研究,有意者请联系jogleeson@health.ucsd.edu。


通讯作者 杨晓旭:加州大学圣地亚哥分校Joseph Gleeson实验室博士后,长期致力于嵌合突变研究,主要研究方向为嵌合突变对疾病的影响、利用嵌合突变研究人类早期胚胎发育、嵌合突变检测和验证方法开发、以及相关遗传学和生物信息学模型。合作请联系yangxiaoxu-shishen@hotmail.com。


其他作者 科罗拉多大学的 Martin W. Breuss教授、加州大学圣地亚哥分校和Rady儿童遗传医学研究所的Danny Antaki博士、Laurel L. Ball博士、Changuk Chung博士、沈家伟、李晨、 Renee D. George博士、程雨禾、Ludmil B. Alexandrov教授、Jonathan L. Sebat教授以及梅奥医学中心的汪一凡博士, Taejeong Bae博士和Alexei Abyzov教授、北京大学魏丽萍教授以及 NIMH Brain Somatic Mosaicism Network。


作者介绍视频
https://www.bilibili.com/video/BV1LG4y1E78Z


未来光锥是果壳发起的科创品牌,全面服务科学家的科技创新,为科学家创业提供从公司注册知识产权,到融资需求、团队组建等不同阶段的方案建议,加速科技成果从实验室到市场的转化。
果壳团队有着长达13年为科学家服务的经验,我们始终站在科学家的视角出谋划策,做科创者的好朋友。如果您正打算创办一家科技企业,无论是找钱、找人、找资源,还是找订单,都欢迎与未来光锥团队聊聊。您可发送bp或其他项目资料到wlgz@guokr.com,留下联系方式,或添加果壳硬科技企业微信私信沟通。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

d13784403613 2023-2-28 07:00:55 显示全部楼层
不太懂?有没有详细介绍?
回复

使用道具 举报

信大少女 2023-2-28 13:32:11 显示全部楼层
回个帖子,下班咯~
回复

使用道具 举报

林檎彡 2023-2-28 20:24:48 显示全部楼层
对不起,我就来看看,不说话
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies