子刊火力全开：9文聚焦微生物组数据发掘

day打铁男 · 2020-12-12 18:45:26

12 月 12 日的《热心肠日报》，我们解读了 9 篇文献，关注：人体菌群、CRISPR、深度学习、小蛋白注释、细菌基因组、基因编辑、代谢组学、建模、anti-CRISPR、元数据库、网络分析。
Cell子刊：人体菌群中自然CRISPR系统和靶标的鉴定

[size=0.833em]Cell Host and Microbe——[15.923]
[size=0.833em]① 本研讨分析了来自17个不同身体位点2355个人体宏基因组的CRISPR基因座和cas基因，鉴定出290万个CRISPR间隔子，停止了CRISPR系统的分类和功能表征；② 与肠道/泌尿生殖道部位相比，口腔环境显示出较高的CRISPR出现频率；③ CRISPR间隔区的功能潜力暗示与限制性修饰系统有关；④ cas基因谱伴随着CRISPR亚型按身体位点分化，当与cas基因系统结合时，CRISPR-Cas亚型具有高度的位点和分类群特异性。
[size=0.833em]【主编评语】
本研讨运用2355个宏基因组对整个人体菌群中的CRISPR位点和cas基因停止了分析，经过将间隔区序列与每个样品的宏基因组和相应的基因家族对齐，从而产生了290万个间隔区的功能和分类学概况，进而停止了CRISPR系统的分类和功能表征，与cas基因丰度的定量一同，本文揭示了CRISPR-Cas系统及其靶标的潜在作用，以及细菌与病毒关系的退化特性和原理。该研讨也提供了人类菌群中自然CRISPR-cas基因座和靶标的片面数据库。（@刘永鑫-中科院-宏基因组）
[size=0.833em]【原文信息】
Identification of Natural CRISPR Systems and Targets in the Human Microbiome
2020-11-19, doi: 10.1016/j.chom.2020.10.010
Cell子刊：基于深度学习的微生物基因组小蛋白编码基因的自动预测和注释

[size=0.833em]Cell Host and Microbe——[15.923]
[size=0.833em]① 用于smORF辨认的深度学习方法可学习smORF序列具有生物学意义的特征；② 模型学会了辨认Shine-Dalgarno序列，降低每个密码子中的摆动地位优先级以及对在密码子表中找到的同义密码子停止分组的功能；③ 经过SmORFinder注释工具对26种细菌的核心基因组分析，确定了几个功能未知的核心smORFs；④ 作者为数千个RefSeq分离基因组和人类微生物组计划宏基因组预先计算了smORF注释，并经过网站提供了这些数据。
[size=0.833em]【主编评语】
运用现有的研讨工具常常忽略了小蛋白质，Durrant和Bhatt运用深度学习模型来改进对人类菌群中常见的小蛋白质的检测。为了方便注释特定的小型开放阅读框（smORFs），本文引入了SmORFinder。该工具结合了每个smORF家族的隐马尔可夫模型和深度学习模型，这些模型可以更好地推行到训练集中未被见到的smORF家族，从而丰富了对Ribo-seq翻译信号的预测。该注释工具可收费获得，并且可以重新分析成千上万个公开可用的基因组。（@刘永鑫-中科院-宏基因组）
[size=0.833em]【原文信息】
Automated Prediction and Annotation of Small Open Reading Frames in Microbial Genomes
2020-12-07, doi: 10.1016/j.chom.2020.11.002
Nature子刊：高效的多重细菌基因组编辑工具

[size=0.833em]Nature Biotechnology——[36.558]
[size=0.833em]① 引导RNA辅助转座子靶向插入（INTEGRATE）将高效、无缝的转座整合与CRISPR介导靶向相结合；② 可完成大片段DNA（10-kb）在细菌基因组中单个方向上的高精度插入，效率可达到100%；③ INTEGRATE不依赖于每个靶位点的同源臂，可运用多个靶向的CRISPR阵列疾速地将多个基因组同时插入同一细胞，完成多位点不同片段的特异性整合；④ 与Cre-LoxP系统联用完成细菌基因组大片段的精准敲除；⑤ 系统也适用于产酸克雷伯氏杆菌及恶臭假单胞菌的基因组改造。
[size=0.833em]【主编评语】
现有的细菌中千碱基大小的DNA序列的定点整合技术效率低、依赖重组，其运用收到限制。Nature Biotechnology近期发表的文章，开发出一种引导RNA辅助转座子靶向插入（INTEGRATE）技术，可完成大片段DNA（10-kb）在细菌基因组的高精度插入，同时应用CRISPR阵列可完成多位点不同片段的特异性整合，是一种多重、千碱基规模的基因组编辑技术。（@爱的选择）
[size=0.833em]【原文信息】
CRISPR RNA-guided integrases for high-efficiency, multiplexed bacterial genome engineering
2020-11-23, doi: 10.1038/s41587-020-00745-y
Nature子刊：分类未知代谢物的代谢组学新工具，或将助力菌群研讨

[size=0.833em]Nature Biotechnology——[36.558]
[size=0.833em]① 开发一种系统性化合物类别注释的计算工具：CANOPUS；② CANOPUS经过深度神经网络，从碎片质谱中预测了2497种化合物类别，包括一切生物学相关的类别；③ CANOPUS尤其针对无法获得质谱或结构参考数据的化合物，并能预测缺乏串联质谱训练数据的类别；④ 与四种基线方法相比，CANOPUS具有高效预测功能；⑤ CANOPUS具有广泛的用途，运用CANOPUS研讨了菌群对小鼠消化道代谢组的影响、大戟属植物的化学多样性，以及海洋自然产物的结构分析。
[size=0.833em]【主编评语】
运用非靶向的代谢组学，能在生物学样本中检测上千种代谢物，是微生物组等研讨范畴中重要的研讨手腕，但目前对结构未知的分子停止分类预测和结构注释仍有很大应战。Nature Biotechnology近期发表的一项研讨，开发了一种计算工具CANOPUS，能对高分辨率碎片质谱中的未知代谢物停止系统分类，具有广泛的运用前景，包括用于研讨自然产物、食品组学、环境研讨、药物降解、病理学等。（@mildbreeze）
[size=0.833em]【原文信息】
Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra
2020-11-23, doi: 10.1038/s41587-020-0740-8
Nature Reviews：预测生物学完成建模、了解和驾驭微生物的复杂性（综述）

[size=0.833em]Nature Reviews Microbiology——[34.209]
[size=0.833em]① 预测生物学经过整合生物学、物理学和工程学的不同专业知识，构成了对生物设计一种新兴的、定量的了解；② 本文分别综述了预测生物学的关键范畴，与微生物固有的复杂性相关的应战，以及定量方法在提高微生物学预测性方面的价值；③ 应用计算建模的、适用性的、机器学习的非规范运用，可以提供强有力的定量见解，包括为生态互相作用生成粗粒度预测，提高计算效率以加速模型预测，阐明药物干扰与细胞反应之间的因果机制关系。
[size=0.833em]【主编评语】
预测生物学是合成生物学和系统生物学（特别是微生物学）的下一章。曾经似乎不可行的义务正日益得到完成，例如设计和完成执行复杂的传感和驱动功能的复杂的合成基因回路，以及将具有特定，预定组成的多物种细菌群落组装在一同。经过整合生物学，物理学和工程学范畴的各种专业知识，使这些成就成为能够，从而使人们对生物学设计有了新的定量看法。随着越来越多的多组学数据集的出现，它们在将实际转化为实际中的潜在功效照旧坚定地植根于控制生物系统的基本定量原理。在这篇综述中，作者讨论了微生物学日益惹起人们关注的预测生物学的关键范畴，与生俱来的微生物复杂性相关的应战以及定量方法在使微生物学更具可预测性方面的价值。（@刘永鑫-中科院-宏基因组）
[size=0.833em]【原文信息】
Predictive biology: modelling, understanding and harnessing microbial complexity
2020-05-29, doi: 10.1038/s41579-020-0372-5
Nature子刊：人类肠道微生物组的高分子量DNA提取、纳米孔测序和宏基因组组装方法

[size=0.833em]Nature Protocols——[10.419]
[size=0.833em]① 本文提出了一种从人类粪便样本中提取微克量的高分子量DNA用于长读长测序的实验方法；② 该方法将新的多酶裂解步骤与DNA纯化和大小选择方法结合，只需不到1克的起始样品，就可以产生微克数量的DNA，其片段峰长为几十kb；③ 该方法描画了从人类粪便样品中提取、测序组装和分箱高分子量DNA的详细实验步骤；④ 作者还开发了一种下游生物信息学分析的工作流程，用于碱基辨认、易出错的读长拆卸和长读长宏基因组数据的循环化。
[size=0.833em]【主编评语】
人类肠道微生物组的短读长宏基因组测序和从头基因组组装可产生细菌基因组草图，而无需分离和培育。虽然长读长测序已成功运用于拆卸延续的细菌分离体基因组，但从粪便样本中提取足够分子量、纯度和数量的DNA停止宏基因组测序仍是一个应战。在此，作者提出了一种从人类粪便样本中提取微克量的高分子量DNA的方案，该方案适用于下游长读长测序的运用。作者还推出了Lathe (www.github.com/bhattlab/lathe)，这是一种用于长读长碱基检出，拆卸，长读长或Illumina短读长的分歧细化和基因组环化的计算工作流程。总而言之，此方案可以在大约10天内，从2 d的动手实际和计算量下从复杂的人类肠道样本中产生高质量的延续或环状细菌基因组。（@刘永鑫-中科院-宏基因组）
[size=0.833em]【原文信息】
Improved high-molecular-weight DNA extraction, nanopore sequencing and metagenomic assembly from the human gut microbiome
2020-12-04, doi: 10.1038/s41596-020-00424-x
Nature子刊：机器学习发掘anti-CRISPR蛋白家族

[size=0.833em]Nature Communications——[12.121]
[size=0.833em]① CRISPR-Cas是细菌和古细菌的顺应性免疫系统，已被用于开发弱小的基因组编辑工具；② 在无休止的寄生军备竞赛中，病毒退化出多种抗防御机制，包括多种anti-CRISPR蛋白（Acrs）；③ 为了建立一个预测模型，需求一个由两部分组成的训练集：一个由先前发现的Acrs组成的正集，和一个由确定非Acrs的蛋白质组成的负集；④ 二分类模型在测试集上达到78%的精度值和57%的召回率；⑤ 本文证明了机器学习方法对候选Acrs的辨认具有很强的预测和鉴别才能。
[size=0.833em]【主编评语】
CRISPR-Cas是顺应性免疫系统，存在于几乎一切的古细菌和大约40%的细菌中，在无休止的寄生军备竞赛中，病毒退化出多种抗防御机制包括特异性抑制CRISPR-Cas的多种anti-CRISPR蛋白(Acrs)，虽然发现Acrs对了解原核生物中宿主-寄生互相作用的生物学机制及其调理CRISPR在DNA编辑运用的潜力非常重要，但Acrs的发现照旧是一项艰巨的义务。本研讨描画了一个系统的机器学习方法，用来预测Acrs，基于几个已知的Acrs属性和一个运用已知Acrs的启示式的二次挑选，以进一步丰富候选Acrs。本研讨表明，这种方法对Acrs有分明的预测作用，该项工作搜索不断扩展的病毒基因组数据库、宏基因组和其他MGE。这种策略的迭代运用将极大地扩展Acrs的多样性，并且能够发现其他抑制防御系统。（@刘永鑫-中科院-宏基因组）
[size=0.833em]【原文信息】
Machine-learning approach expands the repertoire of anti-CRISPR protein families
2020-07-29, doi: 10.1038/s41467-020-17652-0
整理的7万个人类宏基因组样本的元数据

[size=0.833em]Nucleic Acids Research——[11.501]
[size=0.833em]① 目前公共数据库中宏基因组数据呈指数增长，但非标准化的元数据给数据的管理与再应用带来了应战；② HumanMetagenomeDB数据库整理了SRA和MG-RAST数据库中人类宏基因组的元数据，涵盖580个研讨，69 822个宏基因组，203个属性；③ 经过疾速搜索、高级搜索和交互地图三大功能，用户可以查询到需求的结果并根据提供的代码停止下载；④ HumanMetagenomeDB数据库为完成一致的人类宏基因组数据库奠定了基础，也为新的元数据和本体提供了简单的指点。
[size=0.833em]【主编评语】
HumanMetagenomeDB的次要目的是简化对感兴味的公共人类元基因组的辨认和运用，其集中并标准化了SRA和MG-RAST数据库中存在的人类宏基因组的元数据。它涵盖了超过69 822个与人类相关的宏基因组和203个属性。该新颖的数据库具有敌对的用户界面，允许用户探求、选择和下载经过整理的元数据，从而协助来自不同范畴的迷信家根据本人的兴味选择样本。该数据库的可用性为一致的人类宏基因组数据库奠定了基础，为新的元数据和本体的协调提供了简单的指点。总之，该数据库改进了人类宏基因组的元数据本体的协调性，并简化了不同研讨之间的简单查询，解释和对基础数据的简单访问。HumanMetagenomeDB可在https://webapp.ufz.de/hmgdb/上公开获得。（@刘永鑫-中科院-宏基因组）
[size=0.833em]【原文信息】
HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes
2020-11-22, doi: 10.1093/nar/gkaa1031
NetCoMi：R中微生物组数据的网络构建和比较

[size=0.833em]Briefings in Bioinformatics——[8.99]
[size=0.833em]① 当前的高通量测序计数数据仅携带相对或组成信息，因此需求公用的统计分析方法；② NetCoMi是一个片面的R软件包，可完成构建，分析和比较微生物关联网络的残缺工作流程；③ NetCoMi整合了广泛的方法列表，这些方法思索了标记物基因和宏基因组测序数据的特殊特征，包括零计数处理，标准化和关联估计的方法；④ 该软件包还提供了用于构建样本相似性网络以及差异网络的功能，包括辨认差异关联类群的适当方法。
[size=0.833em]【主编评语】
本文引见了NetCoMi，一个用于微生物组数据的网络构建和比较的R软件包，它在单个可重现的计算工作流程中集成了每个分析步骤的现有方法。该软件包提供了用于构建和分析单个微生物关联网络以及量化网络差异的功能。这样就可以洞悉单个类群，类群组或整个网络结构在各组之间能否发生了变化。NetCoMi还包含用于构建差异网络的功能，从而允许评价单对类群在两组之间能否存在差异关联。此外，NetCoMi有助于构建和分析微生物组样品的异种网络，从而可以对整个微生物组样品采集的异质性停止高级图形化汇总。可在https://github.com/stefpeschel/NetCoMi上获得NetCoMi软件包以及教程。（@刘永鑫-中科院-宏基因组）
[size=0.833em]【原文信息】
NetCoMi: network construction and comparison for microbiome data in R
2020-12-03, doi: 10.1093/bib/bbaa290
[size=0.833em]感激本期日报的创作者：刘永鑫-中科院-宏基因组，陈国忠，白蓝木，陈苗，周云燕

[size=0.833em]点击阅读过去10天的日报：
12-11 | 昔日Science：粪菌移植+PD-1疗法，临床抗癌传好音讯
12-10 | 3篇高分论文：应用宏观生态学原理研讨菌群渐入佳境
12-09 | Lancet威望综述，读懂缺铁和补铁
12-08 | 连发两文：30分Nature Reviews详解乳糜泻
12-07 | 杭州师大打破：加弱小肠癌化疗敏感性的关键基因
12-06 | 调菌群+护屏障，川师大揭示苹果根皮苷益生潜力
12-05 | 5文聚焦心血管："更植物"，更健康饮食=更低发病
12-04 | 昔日Science重磅综述：菌群如何协助人类顺应环境
12-03 | Nature双发：菌群原位成像严重打破+真菌多糖抗肠炎
12-02 | 黄秀娟等高分双发：纵论亚洲发展中国家IBD诊疗

za51 · 2020-12-13 07:15:50

有空一起交流一下

21CN · 2020-12-14 07:21:28

哈哈哈，楼主求带

hhh336688 · 2020-12-14 18:27:08

看起来不错

		自动登录	找回密码
密码			立即注册

子刊火力全开：9文聚焦微生物组数据发掘

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们