[size=0.833em]Cell Host and Microbe——[15.923]
[size=0.833em]① 本研讨分析了来自17个不同身体位点2355个人体宏基因组的CRISPR基因座和cas基因,鉴定出290万个CRISPR间隔子,停止了CRISPR系统的分类和功能表征;② 与肠道/泌尿生殖道部位相比,口腔环境显示出较高的CRISPR出现频率;③ CRISPR间隔区的功能潜力暗示与限制性修饰系统有关;④ cas基因谱伴随着CRISPR亚型按身体位点分化,当与cas基因系统结合时,CRISPR-Cas亚型具有高度的位点和分类群特异性。
[size=0.833em]【主编评语】
本研讨运用2355个宏基因组对整个人体菌群中的CRISPR位点和cas基因停止了分析,经过将间隔区序列与每个样品的宏基因组和相应的基因家族对齐,从而产生了290万个间隔区的功能和分类学概况,进而停止了CRISPR系统的分类和功能表征,与cas基因丰度的定量一同,本文揭示了CRISPR-Cas系统及其靶标的潜在作用,以及细菌与病毒关系的退化特性和原理。该研讨也提供了人类菌群中自然CRISPR-cas基因座和靶标的片面数据库。(@刘永鑫-中科院-宏基因组)
[size=0.833em]【原文信息】
Identification of Natural CRISPR Systems and Targets in the Human Microbiome
2020-11-19, doi: 10.1016/j.chom.2020.10.010
Cell子刊:基于深度学习的微生物基因组小蛋白编码基因的自动预测和注释
[size=0.833em]Cell Host and Microbe——[15.923]
[size=0.833em]① 用于smORF辨认的深度学习方法可学习smORF序列具有生物学意义的特征;② 模型学会了辨认Shine-Dalgarno序列,降低每个密码子中的摆动地位优先级以及对在密码子表中找到的同义密码子停止分组的功能;③ 经过SmORFinder注释工具对26种细菌的核心基因组分析,确定了几个功能未知的核心smORFs;④ 作者为数千个RefSeq分离基因组和人类微生物组计划宏基因组预先计算了smORF注释,并经过网站提供了这些数据。
[size=0.833em]【主编评语】
运用现有的研讨工具常常忽略了小蛋白质,Durrant和Bhatt运用深度学习模型来改进对人类菌群中常见的小蛋白质的检测。为了方便注释特定的小型开放阅读框(smORFs),本文引入了SmORFinder。该工具结合了每个smORF家族的隐马尔可夫模型和深度学习模型,这些模型可以更好地推行到训练集中未被见到的smORF家族,从而丰富了对Ribo-seq翻译信号的预测。该注释工具可收费获得,并且可以重新分析成千上万个公开可用的基因组。(@刘永鑫-中科院-宏基因组)
[size=0.833em]【原文信息】
Automated Prediction and Annotation of Small Open Reading Frames in Microbial Genomes
2020-12-07, doi: 10.1016/j.chom.2020.11.002
Nature子刊:高效的多重细菌基因组编辑工具
[size=0.833em]Nature Protocols——[10.419]
[size=0.833em]① 本文提出了一种从人类粪便样本中提取微克量的高分子量DNA用于长读长测序的实验方法;② 该方法将新的多酶裂解步骤与DNA纯化和大小选择方法结合,只需不到1克的起始样品,就可以产生微克数量的DNA,其片段峰长为几十kb;③ 该方法描画了从人类粪便样品中提取、测序组装和分箱高分子量DNA的详细实验步骤;④ 作者还开发了一种下游生物信息学分析的工作流程,用于碱基辨认、易出错的读长拆卸和长读长宏基因组数据的循环化。
[size=0.833em]【主编评语】
人类肠道微生物组的短读长宏基因组测序和从头基因组组装可产生细菌基因组草图,而无需分离和培育。虽然长读长测序已成功运用于拆卸延续的细菌分离体基因组,但从粪便样本中提取足够分子量、纯度和数量的DNA停止宏基因组测序仍是一个应战。在此,作者提出了一种从人类粪便样本中提取微克量的高分子量DNA的方案,该方案适用于下游长读长测序的运用。作者还推出了Lathe (www.github.com/bhattlab/lathe),这是一种用于长读长碱基检出,拆卸,长读长或Illumina短读长的分歧细化和基因组环化的计算工作流程。总而言之,此方案可以在大约10天内,从2 d的动手实际和计算量下从复杂的人类肠道样本中产生高质量的延续或环状细菌基因组。(@刘永鑫-中科院-宏基因组)
[size=0.833em]【原文信息】
Improved high-molecular-weight DNA extraction, nanopore sequencing and metagenomic assembly from the human gut microbiome
2020-12-04, doi: 10.1038/s41596-020-00424-x
Nature子刊:机器学习发掘anti-CRISPR蛋白家族
[size=0.833em]Nature Communications——[12.121]
[size=0.833em]① CRISPR-Cas是细菌和古细菌的顺应性免疫系统,已被用于开发弱小的基因组编辑工具;② 在无休止的寄生军备竞赛中,病毒退化出多种抗防御机制,包括多种anti-CRISPR蛋白(Acrs);③ 为了建立一个预测模型,需求一个由两部分组成的训练集:一个由先前发现的Acrs组成的正集,和一个由确定非Acrs的蛋白质组成的负集;④ 二分类模型在测试集上达到78%的精度值和57%的召回率;⑤ 本文证明了机器学习方法对候选Acrs的辨认具有很强的预测和鉴别才能。
[size=0.833em]【主编评语】
CRISPR-Cas是顺应性免疫系统,存在于几乎一切的古细菌和大约40%的细菌中,在无休止的寄生军备竞赛中,病毒退化出多种抗防御机制包括特异性抑制CRISPR-Cas的多种anti-CRISPR蛋白(Acrs),虽然发现Acrs对了解原核生物中宿主-寄生互相作用的生物学机制及其调理CRISPR在DNA编辑运用的潜力非常重要,但Acrs的发现照旧是一项艰巨的义务。本研讨描画了一个系统的机器学习方法,用来预测Acrs,基于几个已知的Acrs属性和一个运用已知Acrs的启示式的二次挑选,以进一步丰富候选Acrs。本研讨表明,这种方法对Acrs有分明的预测作用,该项工作搜索不断扩展的病毒基因组数据库、宏基因组和其他MGE。这种策略的迭代运用将极大地扩展Acrs的多样性,并且能够发现其他抑制防御系统。(@刘永鑫-中科院-宏基因组)
[size=0.833em]【原文信息】
Machine-learning approach expands the repertoire of anti-CRISPR protein families
2020-07-29, doi: 10.1038/s41467-020-17652-0
整理的7万个人类宏基因组样本的元数据
[size=0.833em]Nucleic Acids Research——[11.501]
[size=0.833em]① 目前公共数据库中宏基因组数据呈指数增长,但非标准化的元数据给数据的管理与再应用带来了应战;② HumanMetagenomeDB数据库整理了SRA和MG-RAST数据库中人类宏基因组的元数据,涵盖580个研讨,69 822个宏基因组,203个属性;③ 经过疾速搜索、高级搜索和交互地图三大功能,用户可以查询到需求的结果并根据提供的代码停止下载;④ HumanMetagenomeDB数据库为完成一致的人类宏基因组数据库奠定了基础,也为新的元数据和本体提供了简单的指点。
[size=0.833em]【主编评语】
HumanMetagenomeDB的次要目的是简化对感兴味的公共人类元基因组的辨认和运用,其集中并标准化了SRA和MG-RAST数据库中存在的人类宏基因组的元数据。它涵盖了超过69 822个与人类相关的宏基因组和203个属性。该新颖的数据库具有敌对的用户界面,允许用户探求、选择和下载经过整理的元数据,从而协助来自不同范畴的迷信家根据本人的兴味选择样本。该数据库的可用性为一致的人类宏基因组数据库奠定了基础,为新的元数据和本体的协调提供了简单的指点。总之,该数据库改进了人类宏基因组的元数据本体的协调性,并简化了不同研讨之间的简单查询,解释和对基础数据的简单访问。HumanMetagenomeDB可在https://webapp.ufz.de/hmgdb/上公开获得。(@刘永鑫-中科院-宏基因组)
[size=0.833em]【原文信息】
HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes
2020-11-22, doi: 10.1093/nar/gkaa1031
NetCoMi:R中微生物组数据的网络构建和比较
[size=0.833em]Briefings in Bioinformatics——[8.99]
[size=0.833em]① 当前的高通量测序计数数据仅携带相对或组成信息,因此需求公用的统计分析方法;② NetCoMi是一个片面的R软件包,可完成构建,分析和比较微生物关联网络的残缺工作流程;③ NetCoMi整合了广泛的方法列表,这些方法思索了标记物基因和宏基因组测序数据的特殊特征,包括零计数处理,标准化和关联估计的方法;④ 该软件包还提供了用于构建样本相似性网络以及差异网络的功能,包括辨认差异关联类群的适当方法。
[size=0.833em]【主编评语】
本文引见了NetCoMi,一个用于微生物组数据的网络构建和比较的R软件包,它在单个可重现的计算工作流程中集成了每个分析步骤的现有方法。该软件包提供了用于构建和分析单个微生物关联网络以及量化网络差异的功能。这样就可以洞悉单个类群,类群组或整个网络结构在各组之间能否发生了变化。NetCoMi还包含用于构建差异网络的功能,从而允许评价单对类群在两组之间能否存在差异关联。此外,NetCoMi有助于构建和分析微生物组样品的异种网络,从而可以对整个微生物组样品采集的异质性停止高级图形化汇总。可在https://github.com/stefpeschel/NetCoMi上获得NetCoMi软件包以及教程。(@刘永鑫-中科院-宏基因组)
[size=0.833em]【原文信息】
NetCoMi: network construction and comparison for microbiome data in R
2020-12-03, doi: 10.1093/bib/bbaa290
[size=0.833em]感激本期日报的创作者:刘永鑫-中科院-宏基因组,陈国忠,白蓝木,陈苗,周云燕