woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

Nature子刊:来自人类肠道菌群的189,680种DNA病毒基因组集

已有 2351 次阅读 2022-1-26 23:17 |个人分类:宏基因组|系统分类:科研笔记

image

翻译:周之超@UW-Madison

来自人类肠道菌群的 189,680 种 DNA 病毒的宏基因组汇编

Metagenomic compendium of 189,680 DNA viruses from the human gut microbiome viruses

Nature Microbiology [IF: 17.745]

DOI:https://doi.org/10.1038/s41564-021-00928-6

发表日期:2021-06-24

第一作者:Stephen Nayfach1,2

通讯作者:Stephen Nayfach
(snayfach@lbl.gov)1,2, Nikos C. Kyrpides(nckyrpides@lbl.gov)1,2

合作作者: David Páez-Espino,Lee Call,Soo Jen Low,Hila Sberro,Natalia N. Ivanova,Amy D. Proal,Michael A. Fischbach,Ami S. Bhatt,Philip Hugenholtz

主要单位:

1美国加州环境基因组学和系统生物学部劳伦斯-伯克利国家实验室(Environmental Genomics and Systems Biology Division, Lawrence Berkeley National Laboratory, Berkeley, CA, USA)

2美国能源部联合基因组研究所(U.S. Department of Energy Joint Genome Institute, Berkeley, CA, USA)

摘要

噬菌体在人类肠道微生物组的生态学中具有重要作用,但在参考数据库中的代表性不足。为了解决这个问题,我们组装了宏基因组肠道病毒目录,包括来自11,810个公开的人类粪便宏基因组的189,680个病毒基因组。超过75%的基因组代表双链DNA噬菌体,它们感染了Bacteroidia和Clostridia的成员。基于序列聚类,我们确定了54,118个候选病毒物种,其中92%在现有数据库中没有发现。Metagenomic Gut Virus(MGV)目录改善了粪便宏基因组中病毒的检测,占人类肠道细菌和古细菌中发现的CRISPR间隔物的近40%。我们还制作了一个459,375个病毒蛋白簇的目录,以探索肠道病毒组的功能潜力。这项研究揭示了数以万计的产生多样性的逆转录因子,这些逆转录因子利用容易出错的逆转录来突变目标基因,并可能参与噬菌体和其细菌宿主之间的分子军备竞赛

正文

肠道微生物组是一个复杂的微生物生态系统,对人类健康和发展具有重要作用。虽然经常被忽视,但据估计,病毒在微生物组中含量丰富,并与人类疾病有关。特别是噬菌体(感染细菌的病毒)构成了大部分的病毒颗粒,并能通过噬菌体捕食、溶菌作用和水平基因转移影响微生物生态系统过程。尽管它们无处不在,但我们对微生物组中病毒基因组多样性的了解是有限的,大多数病毒序列未能与现有的基因组数据库匹配。来自微生物组的病毒基因组综合数据库是对病毒进行免组装量化、预测宿主与病毒的相互作用、比较基因组学和基因组挖掘(例如抗CRISPR基因)的先决条件。

传统上,对微生物组中的病毒基因组进行测序有两种主要方法:病毒宏基因组测序和大量宏基因组测序。病毒宏基因组学包括使用尺寸过滤来选择病毒样颗粒,然后进行病毒DNA提取、(通常)全基因组扩增、鸟枪测序和宏基因组组装。虽然尺寸过滤是用来富集细胞外病毒的,但它不会去除所有的细胞生物体,并会排除一些大型病毒。由于样品生物量低,通常需要进行全基因组扩增,但会使病毒丰度出现偏差,并过度扩增小型环状单链DNA(ssDNA)病毒。

另一种方法是得到大宗宏基因组,不进行尺寸过滤或全基因组扩增,然后通过计算分离病毒和细胞序列。这种方法可以捕捉到细胞外和细胞内病毒的序列,包括整合的原病毒,并且不受全基因组扩增的影响。然而,在大宗的宏基因组测序中,由于大部分reads来自于细胞生物,所以组装低丰度的病毒更具挑战性。此外,DNA提取方法可能没有针对病毒进行优化,一些病毒序列可能来自于细菌染色体中退化的原病毒。

迄今为止,许多研究已经利用病毒宏基因组测序技术从人类粪便样本中识别出各种表型的噬菌体基因组。为了整合这些不同的数据集,Soto-Perez等人从1,831个公共样本(包括皮肤、粪便、肺和血液)形成了人类病毒组数据库(HuVirDB),Gregory等人从2,697个公共样本形成了肠道病毒组数据库(GVD)。与这些病毒宏基因组研究相比,Paez-Espino等人通过从大宗宏基因组(包括人类微生物组计划中的490个粪便样本)中识别病毒,形成了IMG/VR数据库。自此以后,公开可用的大宗宏基因组的数量迅速增加,最近大规模的数据挖掘工作证明了这一点。

为了扩大这些现有的资源并提供肠道病毒组的补充观点,我们对来自61个先前发表的研究的11,810个人类粪便样本的宏基因组进行了大规模的病毒基因组鉴定我们利用这些数据形成了宏基因组肠道病毒(MGV)目录,其中包含189,680个病毒基因组草图,估计完整度大于50%,代表54,118个候选病毒物种。这些基因组极大地扩展了已知的来自肠道微生物组的DNA病毒的多样性,并提高了对宿主-病毒联系的认识。我们希望MGV目录将成为一个有用的群落资源,用于审视肠道病毒组在人类健康和疾病中的作用。

结果

来自肠道微生物组的DNA病毒的基因组目录

A genomic catalogue of DNA viruses from the gut microbiome

我们为目前的研究开发了一个病毒检测管道,使用了成熟的方法和特征,包括VirFinder、来自地球病毒组研究的病毒蛋白家族,以及病毒基因位于同一条链上的倾向和未被命名的功能(图1a、b)。根据计算机模拟的基准,我们的管道能够敏感地识别各种人类相关病毒和噬菌体的基因组片段,包括crAss-like噬菌体和巨噬菌体,具有很高的特异性,与现有的方法相比表现良好。对于1、10和100kb的基因组片段,我们的管道实现了41%、74%和96%的真阳性率(TPR),假阳性率(FPR)仅为0.43%、0.38%和0.18%。

图 1 从人类肠道宏基因组中回收的数千个高质量病毒基因组

thousands of high-quality viral genomes recovered from human gut metagenomes

image

a 病毒发现工作和MGV目录的形成概述;

b 长于20kb的预测病毒和非病毒宏基因组片段的基因组特征;

c 估计基因组完整性的分布和MGVs质量等级的分类(完整,n = 26,030;>90%完整,n = 53,220;50-90%完整,n = 110,430;<50%完整,n = 2,620,162;完整度未定,n = 671,842);

d 完整度 > 50%的189,680基因组的元数据和注释;

对于箱形图,中线表示中位数,方框表示四分位数范围,轴须线表示1.5倍的四分位数范围。

然后,我们将我们的管道应用于来自11,810个不同的人类肠道样本的大宗宏基因组,这些样本是在以前的研究中组装的,广泛地抓捕到裂解和溶原DNA病毒(图1a)。所分析的数据集横跨24个国家的61项研究,包括具有广泛的年龄、生活方式和疾病状态的个体。这揭示了350万个独特的、长度超过1 kb的单片段病毒基因组。根据对所有三项研究中发现的宏基因组的分析,我们发现组装器的选择(即MEGAHIT与metaSPAdes)对恢复的病毒的质量或相似度没有什么影响。病毒基因组主要来自欧洲(46%)、中国(23%)和美国(13%)的个体,反映了这些来源的宏基因组数据量(分别占总组装长度的45%、24%和11%)。

宏基因组组装的病毒的完整性可能差别很大,从短的片段到完整或接近完整的基因组。为了评估基因组的完整性,我们应用了CheckV,揭示了189,680个至少50%完整的基因组(图1c),包括根据直接末端重复(n = 19,704)、宿主-病毒边界(n = 5,123)和倒末端重复(n = 1,203)确定的26030个完整基因组。为了提高基因组质量,我们从这些序列中删除了侧翼的宿主区域(图1a);确认病毒基因组没有宿主污染,我们在所有189,680个病毒中只发现了一个全长的16S rRNA基因(侧翼是一个整合的原病毒),而在用于发现病毒的全套宏基因组contigs中则有83,050个16S rRNA基因。我们将所有的后续分析集中在完整性大于50%的189,680个基因组上,以避免与小基因组片段有关的限制,并与应用于微生物基因组的质量标准相一致。

由于在测序前没有对病毒样颗粒进行分离,我们预计许多病毒来自细菌染色体。然而,只有24%的病毒基因组有宿主整合的证据(图1d),只有10%的病毒基因组的侧翼宿主区域大于5kb。此外,大多数非整合的病毒根据BACPHLIP(140,689中的65%)被归类为毒性病毒,BACPHLIP是一个计算工具,根据保守的蛋白质结构域预测噬菌体的生活方式。同样,BACPHLIP将26,030个完整的基因组中的58%归类为毒力型,表明这一结果不是由于基因组组装不完整造成的,因为整合酶基因经常出现在原病毒基因组的末端。这些结果共同表明,从未经过滤的粪便宏基因组中回收有裂解性病毒的基因组序列并不罕见。

宿主预测和分类学注释

Host prediction and taxonomic annotation

预测病毒的细胞宿主对于理解噬菌体捕食非常重要,也是利用宿主与病毒的相互作用来设计创新噬菌体疗法的重要第一步。为了实现这一目标,我们利用了人类胃肠道统一基因组(UHGG)数据库,其中包括来自肠道微生物组的286,997个细菌和古细菌的基因组,这代表了4,644个原核生物物种(图2)。首先,我们从UHGG基因组中提取了1,846,441个CRISPR间隔物,并寻找与189,680个病毒基因组的近似匹配,结果是宿主与病毒的联系覆盖了81%的病毒(n = 153,892)。有趣的是,当使用从4,644个物种级代表中提取的间隔物时,只有21%的病毒与宿主连接,这表明细菌菌株和活跃的社区感染之间存在相当大的CRISPR多样性。尽管大多数病毒都是由一个间隔物作为目标,但CRISPR阵列只在28%(n = 79,734)的UHGG基因组中发现,包括许多流行的物种Alistipes putredinis、Bacteroides cellulosilyticus和Bifidobacterium breve,证实这种抗病毒防御系统分布有限。为了扩大宿主-病毒网络,我们在189,680个病毒和286,997个宿主之间进行了全基因组比对,并根据近乎精确的基因组匹配(≥96%的同一性超过≥1 kb)确定了连接,结果是覆盖了96%的宿主基因组和90%的病毒基因组的连接。正如预期的那样,大多数病毒与Firmicutes(主要是Clostridia)和Bacteroidia相连,这是肠道微生物组中两个主要的细菌门类(图1d)。这些结果表明,通过对同一环境中的病毒和微生物基因组的广泛组装,可以系统地阐明宿主与病毒的相互作用。

图 2 病毒与人类肠道细菌和古细菌的联系

Viral connections to human gut Bacteria and Archaea

image

a 条形图显示了286,997个人类肠道细菌和古细菌的CRISPR间隔体的数量,括号内为基因组的数量。每一行表示一个含有至少20个基因组和100个间隔体的宿主类别;

b 与病毒基因组相匹配的CRISPR间隔物的百分比,最多有一个错配;

c 含有CRISPR间隔物阵列的宿主基因组;

d 使用所示的组合方法将基因组与病毒联系起来;

e 与每个宿主类别相关的已知病毒家族的分布。每个宿主类别都被不同的病毒家族所感染。

接下来,我们根据与NCBI GenBank的基因组和最近研究的crAss-like病毒的比对,将病毒分配到ICTV数据库的家族中34,45,46(图1d)。只有56.6%的病毒可以在科级进行注释,这证实了人类肠道病毒分类学中存在巨大的知识缺口。为了提高敏感性,我们使用了来自VOG数据库(http://vogdb.org)的具有分类学信息的隐马尔可夫模型(HMMs),发现大多数未注释的病毒都是Caudovirales目成员。在被注释的序列中,有9,395个推定的crAss类病毒的基因组(占总数的5%)。总的来说,只有0.51%(n = 48)的推定crAss噬菌体显示出明显的溶原证据(即两翼有宿主区域,并含有整合酶),这比数据集中的其他病毒低17倍以上。与此相一致的是,56%的高质量crAss噬菌体基因组(n = 5,439)可以被环化,而其他高质量基因组(n = 36,872)只有24%。crAss类基因组还包含其他一些不寻常的特征,包括低GC含量(平均=32%)、使用替代遗传密码和以hypothetical蛋白为主。例如,在27%的crAss-like噬菌体中,TAG或TGA终止密码子被重新编码为氨基酸,而其他病毒中只有0.5%。同样,只有12%的crAss噬菌体蛋白质与Pfam、KEGG或TIGRFAM有明显的联系,而其他病毒的蛋白质有28%。这一大规模的分析支持了以前的研究结果,即一些crAss-like病毒有一种专性的裂解性的生活方式,并揭示了一些不寻常的特征,进一步确立了crAssphage在人类肠道病毒中的异类地位。

大幅扩展的病毒基因组多样性

Vastly expanded viral genomic diversity

为了量化MGV目录中基因组的多样性,我们首先使用MIUViG推荐的标准,即在较短序列的85%长度上有95%的平均核苷酸同一性(ANI),来确定种级病毒操作分类单位(vOTUs)。对这些参数的细微调整确实影响了所识别的vOTU的数量,这表明在物种水平的边界之外还有一个病毒多样性的连续体。总的来说,我们确定了54,118个vOTU,其中8,086个包括来自至少两个样本的成员(图3a)。据预测,最大的vOTU会感染肠道微生物组中一些最普遍的物种,包括Bacteroides uniformis、Faecalibacterium prausnitzii和Agathobacter rectalis(以前的Eubacterium rectale)。为了确定更高等级的病毒支系,我们根据成对的平均氨基酸特性(AAI)和基因共享(方法)将基因组聚类为大约属和科水平的群体,揭示了5800个属水平的vOTU和1434个科水平的vOTU(图3a)。vOTU的累积曲线在科和属的级别上似乎正在接近一个渐近点,但对物种来说还没有(图3b)。

图 3 基因组聚类和与现有数据库的比较

genome clustering and comparison with existing databases

image

将MGV目录中的189,680个基因组与三个数据库中>50%完整的人类肠道病毒基因组进行了比较。IMG/VR(n = 6,895),HuVirDB(n = 9,626)和GVD(n = 4,494);

a 病毒基因组被聚类为大约种、属和科级的vOTU;

b MGV目录中vOTU的积累曲线;

c 来自1,257个未经过滤的粪便宏基因组的读数百分比,来自585个病毒粪便宏基因组的读数百分比,以及来自286,997个UHGG基因组的CRISPR间隔物的百分比,映射到不同数据库的病毒基因组。

最近的其他研究也汇编了来自肠道微生物组的DNA病毒数据库。为了确定MGV目录中独有的vOTU,我们将我们研究中的189,680个基因组与其他三个基因组目录中的中等和高质量病毒基因组聚在一起(图3a):HuVirDB(9,626个基因组来自1,543个病毒宏基因组)、GVD v.1 .0(4494个基因组来自471个病毒宏基因组和98个完整的宏基因组)和IMG/VR v.2.0(6,895个基因组来自490个完整的基因组)。请注意,在审查本稿时,IMG/VR和GVD已经更新到新的版本,这里没有进行分析。为了使所有研究之间具有可比性,在所有病毒数据集上运行CheckV,并排除完整性小于50%的基因组片段。

惊人的是,我们发现MGV目录中的54118个物种级vOTU中的5048个(92%),包括189680个基因组中的100398个(53%),没有与其他数据库的任何基因组聚类(图3a)。相比之下,三个参考数据库合计代表了10391个物种水平的vOTU,其中近一半也在MGV中发现。MGV和IMG/VR数据库都来自于整个宏基因组,它们共享的vOTU数量最多,并且包含了相对较高比例的来自Caudovirales目的溶原性噬菌体,而HuVirDB和GVD数据集主要来自于病毒宏基因组,富含来自Microviridae、Anelloviridae和CRESS家族的小型环状ssDNA病毒。

接下来,我们根据这四个基因组目录从地理上不同的一整套完整宏基因组和病毒宏基因组集中招募测序读长的能力进行比较(图3c)。为了防止自我匹配,我们丢弃了测序reads和来自同一原始研究的病毒基因组之间的比对。总的来说,MGV基因组招募了8.6%的完整宏基因组读长,比其他数据库高4.0倍,招募了40.1%的病毒组reads,这与HuVirDB的42.3%相当。我们还比较了CRISPR间隔体对每个病毒数据库的招募情况,作为量化宿主与病毒联系的一种方式(图3c)。总的来说,来自UHGG基因组的1.8M spacers中有37.5%与MGV目录中的基因组相匹配,这比其他数据库高3.25倍。当使用只有物种级代表的病毒数据库时,匹配的间隔物和宏基因组读数的数量没有很大的变化(图3c)。这些结果共同表明,MGV目录大大增加了已知的病毒多样性,改善了整个宏基因组中病毒读长的检测,扩大了宿主-病毒连接的覆盖范围。

肠道Caudovirales的系统基因组学

Phylogenomics of intestinal Caudovirales

Caudovirales是包括在许多环境中发现的有尾双链DNA(dsDNA)噬菌体的一个广泛的目,并在我们分析的粪便宏基因组中得到高度代表。为了探索这个群体在肠道微生物组中的进化,我们根据77个蛋白编码标记基因的连接排列构建了一个物种水平的系统树(图4a)。在去除数据不足的基因组(少于3个标记或在排列中<5%的代表性)后,最终的树包含了25,528个物种水平的病毒基因组,这些基因组来自四个未培养的肠道病毒数据库(MGV、IMG/VR、HuVirDB和GVD)。

图 4 肠道Caudovirales的系统基因组学

Phylogenomics of intestinal Caudovirales

image

从MGV和其他数据库(IMG/VR、HuVirDB和GVD)得到的25,528个种级基因组构建了系统发育树;

a 肠道Caudovirales的系统发育;树是用iToL绘制的,为了提高视觉效果,每个属级vOTU只显示一个基因组。分支的颜色表示一个品系是否由以前发表的研究代表(黑色)或在MGV目录中是唯一的(绿色)。外圈显示每个vOTU的元数据;

b PD是通过取物种级病毒基因组所代表的分支长度的总和来计算的。

根据累积分支长度,MGV目录覆盖了系统发育多样性(PD)总量的95.7%,包含了代表整个树上所有主要品系的基因组(图4b)。与其他三个数据库相比,MGV的基因组使PD增加了287%,平均分布在病毒和宿主分类群中。Clostridia噬菌体是迄今为止最多样化的群体(占PD的41.8%),因为这些vOTU的数量大,系统发育分布广。相比之下,Bacteroidota噬菌体仅占PD的11.1%,大多数vOTU分为四个主要群组(图4a),包括一个以crAss-like噬菌体为主的群组(PD的2.17%)。总的来说,基于尾巴形态的经典病毒家族和基于基因组的系统发育之间的对应性很差(例如,几乎所有的种系都含有Siphoviridae注释的基因组),这进一步强调了对Caudovirales和其他病毒group进行系统发育驱动的分类的必要性,类似于为细菌和古细菌开发的GTDB分类法。

值得注意的是,有几个种系含有基因组超过200kb的巨型噬菌体(245个物种级vOTU的518个基因组)。与其他分析一样,我们仔细地删除了侧翼的宿主区域以及导致同一基因组重复多次的组装假象。最大的基因组是一个553,716bp的近乎完整的线性基因组,与Prevotella phage Lak-A1密切相关(94.5%的AAI超过87.1%的基因)。与crAss-like噬菌体一样,巨型噬菌体很少被整合到宿主中(n = 13),尽管它们有时包含整合酶(n = 121)。为了更详细地描述这些病毒的多样性,我们根据大型终止酶亚单位(TerL)构建了一个单独的树。与最近发表的来自不同环境的巨型噬菌体集合相比,MGVs导致系统发育多样性的大幅扩展,并覆盖了大多数系谱。

有趣的是,巨型噬菌体和其他Caudovirales似乎在生物地理分布上几乎没有偏好,因为大多数支系在所有大陆都有发现。我们假设,在较短的进化时间尺度上,特定区域的系统型可能是明显的,正如对人类肠道细菌所观察到的那样。为了实现这一目标,我们使用单核苷酸变体(SNP)为146个有100多个成员的流行vOTU构建了菌株级的系统发育。惊人的是,我们观察到许多vOTU的离散亚种在特定的地理区域高度富集。例如,一个被预测为感染Parabacteroides的crAss-like亚种在亚洲的样本中很普遍,但在欧洲和北美却很罕见或没有。需要做更多的工作来了解这些系统发育模式背后的进化动力和基因组适应性。

肠道病毒群的功能

Functional capacity of the gut virome

虽然人类肠道细菌和古细菌的功能潜力已被广泛研究,但对肠道噬菌体的功能潜力却不甚了解。为了探索这一点,我们在我们研究的189,680个病毒基因组中确定了11,837,198个至少有20个氨基酸的蛋白质编码基因(98.4%有起始和终止密码子),并将这些基因与HMM数据库,包括KEGG、TIGRFAM、Pfam、VOGDB(http://vogdb.org/)和地球病毒组数据库进行比较。总的来说,45%的病毒基因与任何数据库都没有明显的匹配,75%的基因没有被赋予任何生物功能(**图5a,b**),表明人们对人类肠道病毒的功能潜力知之甚少。

图 5 肠道噬菌体的功能图

Functional landscape of intestinal phages

image

a 蛋白质编码的病毒基因在所有的MGVs中被确定,并与五个数据库中的HMMs进行比较;

b 45%的基因未能与任何HMM相匹配,30%与功能未知的HMM相匹配,25%与已知功能的HMM相匹配;

c 使用MMseqs2将11,837,198个基因以30%的AAI聚类为459,375个蛋白簇;

d 蛋白簇的大小分布;

e 蛋白簇的累积曲线没有达到渐近值;

f 最大的75个蛋白质簇的功能注释。逆转录酶以红色突出显示;

g 根据反转录酶基因(PF00078)和使用DGRscan确定的TR-VR对的组合预测DGRs。很大一部分MGVs含有DGR系统;

h 不同类别病毒的DGR流行率。DGRs在Myoviridae家族的溶原性、dsDNA病毒中最常见。

为了确定肠道噬菌体中最常见的功能,我们用MMseqs2将30%AAI的1180万个病毒基因聚类为459375个新的病毒蛋白聚类(图5c),包括61%至少有两个成员(图5d)。累积曲线没有显示出高原,表明肠道噬菌体有一个很大的功能多样性库,而这一研究没有完全捕捉到(图5e)。Clostridia噬菌体包含了最多的功能多样性,有173187个蛋白簇,反映了这些噬菌体的巨大系统发育多样性。几个最大的蛋白簇没有预测的功能,包括第四大蛋白簇,有8,319个基因,因此是未来进行实验表征的良好候选者(图5f)。其他大的集群被注释为典型的病毒功能,包括帽状体的形成、包装、裂解、溶菌、复制和转录调节(图5f)。

尽管列举所有的病毒功能和辅助代谢基因超出了本文的范围,但我们探讨了两个特别不寻常的发现。基于对Pfam的HMM搜索,我们发现了11496个推测的病毒β-内酰胺酶(PF12706),包括一个有5832个成员的单一蛋白质簇中的大部分序列(图5f)。β-内酰胺酶是能够对β-内酰胺类抗生素(如青霉素类、头孢类和头孢类)产生耐药性的酶,并构成一个主要的全球健康问题。为了验证这一结果,我们利用Resfams、NCBI AMRFinder和Resistance Gene Identifier (RGI)对抗菌素耐药基因的数据库进行了同源搜索。这些工具显示,总共只有88个抗性基因(63个使用Resfams,56个使用AMRFinder,30个使用RGI),表明11496个推测的病毒β-内酰胺酶和验证的抗性基因之间的相似度很低。尽管功能性宏基因组检测可能会发现肠道微生物组中真正的病毒β-内酰胺酶,但这些结果似乎支持噬菌体很少编码抗生素抗性基因的结论。

另一个有趣的发现是大量的噬菌体逆转录酶(RTs)(图5f)。总的来说,RT结构域(PF00078)是第三个最常见的功能注释,仅次于螺旋-转螺旋DNA结合结构域(PF01381)和噬菌体整合酶家族(PF00589)。已知RTs出现在逆转录病毒、RNA靶向CRISPR-Cas系统和多样性产生的逆转录元素(DGRs)中。DGRs利用容易出错的反转录在模板区(TR)的转录本中产生随机突变,然后在可变区(VR)插入到基因组中,从而在一个特定的基因中产生种群级的超变异性。自从DGR系统首次在Bordetella噬菌体中被定性以来,它已经在人类微生物组和几个人类肠道噬菌体中被发现。

为了确定病毒RT是否是DGR系统的一部分,我们使用工具DGRscan在79,250个高质量的病毒基因组(估计完整度大于90%)中识别TR-VR对。证实了我们的假设,绝大多数有RT的基因组也含有TR-VR(25620个中的85.7%),而没有RT的基因组只占少数(53630个中的6.5%)(图5g)。DGRs在某些Caudovirales家族(例如6,616个Myoviridae中的84%)和溶原病毒(18,187个中的50.1%)中非常常见,而在其他Caudovirales家族、ssDNA病毒和真核生物病毒中则罕见或完全没有(图5h)。尽管绝大多数DGR基因靶点没有功能注释,但我们观察到在几个Pfam结构域内有高度显著的富集,包括一个免疫球蛋白样结构域,该结构域在DGR靶点基因中是5.9倍,据信在噬菌体与细菌细胞表面的碳水化合物的相互作用中起作用。这些结果共同揭示了DGRs在肠道噬菌体中比以前认为的更常见,并可能指向参与分子噬菌体-宿主相互作用的病毒蛋白。

讨论

在这项研究中,我们对公开的宏基因组进行了大规模的数据挖掘,确定了189,680个草图质量的病毒基因组,代表了大约54,118个物种、5,800个属和1,434个科级的vOTU。这一大型资源包含了其他数据库中没有的广泛的病毒基因组多样性,改善了微生物组中病毒reads的检测,并代表了许多不同的和以前未被描述的病毒群体。通过各种方法的结合,我们能够预测宿主与病毒的联系,这些联系涵盖了肠道微生物组中大部分的病毒和原核生物多样性。这些宿主-病毒联系在未来可能对理解疾病过程、设计噬菌体疗法或理解宿主-病毒共同进化的动态很重要。尽管进行了大规模的注释工作,我们只能对25%的病毒基因进行初步的生物功能分配,这表明需要更多的工作和新方法来预测病毒基因组中的蛋白质功能,如深度学习和功能性宏基因组检测。虽然目前的研究只关注DNA病毒,但未来的研究可以使用宏基因组学数据来研究RNA病毒或基因表达模式。

在本稿件审查期间,Camarillo-Guerrero等人发表了肠道噬菌体数据库(GPD),这是一个由28,060个人类肠道宏基因组和2,898个肠道细菌基因组鉴定的142,000个非冗余病毒基因组(>10kb)的集合。应用CheckV后,我们发现GPD代表了79,889个完整度大于50%的病毒contigs,形成了46,480个物种级的vOTU,比MGV的54,118个vOTU少14%。病毒目录之间的差异是由几个因素造成的,包括用于宏基因组挖掘的数据集、病毒鉴定的方法和序列纳入的标准。例如,MGV极大地提高了对Microviridae的覆盖率,而GPD由于其长度较短(平均=4.9kb)而被排除在外。MGV和GPD合计代表了75187个物种水平的vOTU,表明这两个目录包含互补的病毒多样性。在未来,这些和其他大规模的病毒基因组目录可以被整合,以创建一个统一的和标准化的社区资源,就像最近为人类肠道微生物基因组目录所做的那样。

材料和方法

病毒检测流程的开发

Development of viral detection pipeline

我们使用四个病毒特征的组合来识别病毒宏基因组contigs。(1)存在病毒蛋白家族;(2)不存在微生物蛋白家族;(3)存在病毒核苷酸特征;(4)同一条链上有多个相邻基因。对于病毒蛋白家族的存在,我们使用了IMG/VR数据库(2019年6月1日下载)中的23,841个病毒蛋白家族的HMMs,此前排除了微生物基因组或质粒中常见的1,440个。对于不存在微生物蛋白家族的情况,我们使用了Pfam-A数据库57(第31版)中的16260个蛋白家族的HMMs,在排除了452个常见于病毒中的蛋白家族后。使用HMMER软件包v.3.1b2中的hmmsearch(选项:-Z 1,e-值:<1×10-10),对照IMG/VR和Pfam-A的HMMs搜索来自宏基因组的蛋白质,并根据含有top hits的数据库将其分类为病毒或微生物。对于病毒核苷酸特征的存在,我们将工具VirFinder v.1.1应用于宏基因组片段,该工具使用K-mer频率和机器学习的组合对序列进行评分。对于同一条链上的多个相邻的基因,我们通过用链上切换的数量除以每条contig基因的数量来量化链上切换率。

病毒检测流程的基准测试

Benchmarking viral detection pipeline

我们在模拟数据集上评估了我们的病毒检测管道,我们创建的模拟数据集包含人类相关病毒和细菌的基因组片段。每个模拟数据集包含来自六种不同类别的病毒的基因组片段。(1)来自人类肠道的crAss-like噬菌体,(2)来自人类和哺乳动物微生物组的Lak-噬菌体,(3)来自人类肠道病毒组的噬菌体,(4)与肠道分离的微生物基因组CRISPR-spacer匹配的噬菌体,(5)分离的dsDNA人类病毒和(6)分离的ssDNA人类病毒。非病毒基因组片段来自:(1)肠道分离的微生物基因组和(2)质粒基因组。我们从8个类别中的每个类别中随机抽样的基因组中产生了2000个基因组片段,每个片段的长度不同(1、2、5、10、20、50和100kb)。对四种病毒特征的超过77,000个cutoff的组合计算了TPR(归类为病毒的百分比)和FPR(归类为病毒的非病毒片段的百分比)。我们选择了最多五个不同的截止值组合,使每个片段长度的分类得分最高,其中分类得分是基于TPR和FPR的加权组合(得分=TPR-50×FPR)。我们给FPR分配了一个非常高的负权重,以避免在宏基因组中出现许多假阳性,因为宏基因组预计主要包含非病毒序列。我们使用相同的基准数据集,将我们的方法与VirSorter v.1.0.5和VirFinder v.1.1的性能进行了比较。VirFinder使用默认选项运行,我们应用0.05、0.01和0.001的p值阈值将基因组片段分类为病毒性。VirSorter在运行时使用有、无”-virome “选项,我们使用VirSorter类别1和2将一个片段分类为病毒性的(不包括低置信度预测和整合的原病毒)。我们还评估了VirSorter在包括预测的原病毒(类别4和5)时的情况。

应用流程从整个宏基因组中识别人类肠道病毒

Application of pipeline to identify human gut viruses from whole metagenomes

为了对人类肠道病毒进行全面搜索,我们从人类粪便样本中下载了18271个公开可用的宏基因组组合,总计2.25×1012个碱基,对应于11810个独特的生物样本。Assemblies来自最近的两项研究和MGnify数据库(2019年4月16日访问)。我们排除了来自人类肠道以外环境的组合,以及那些无法从NCBI SRA数据库中分配到一个accession号的组合。元数据从以前的研究和NCBI BioSample数据库获得。我们应用我们的病毒检测管道方法在18,271个宏基因组组合中识别出4,436,008个长度超过1 kb的contigs,这些contigs在100% ANI覆盖100%的较短序列长度的标准下,去重得到3,481,684个序列。

基因calling和识别具有替代遗传密码的病毒

Gene calling and identifying viruses with alternative genetic codes

Prodigal v.2.6.3被用来识别3,481,684个病毒基因组中的蛋白质编码基因,使用了为宏基因组优化的选项”-p meta”。此外,我们还运行了一个定制的管道来识别使用替代遗传密码的病毒。具体来说,Prodigal使用标准代码和三种替代基因代码运行。TGA重新编码(代码4或25),TAG重新编码(代码15)和TAA重新编码(代码90),如Ivanova等人以前所描述的。为了减少假阳性,该程序只在GC含量<50%的长于10kb的病毒contigs上运行。对于每个病毒contigs,Prodigal输出一个GFF文件,其中包括每个预测基因的编码潜力得分。为了评估遗传密码,我们采取了每个contig的编码潜力得分的总和。如果一个替代的遗传密码的总编码潜力得分最大,并且比标准遗传密码至少大10%,那么它就会被预测出来。

用于比较的病毒参考基因组

Viral reference genomes used for comparison

来自MGV的病毒基因组与四个参考数据库进行了比较。IMG/VR v.2.0,GVD v.1.0,HuVirDB v.1.0和NCBI GenBank。对于IMG/VR,我们提取了28,697个病毒contigs,这些contigs是使用Earth’s Virome Pipeline从人类粪便样本的490个整体宏基因组中识别出来的。对于GVD,我们使用了所有的13,203个病毒contigs,这些病毒contigs是使用包括VirSorter和VirFinder在内的组合工具从471个病毒宏基因组和98个全宏基因组中鉴定出来的,并在之前被聚类为病毒种群。在论文审稿期间,GVD的更新版本已经发布,但在此没有进行分析。对于HuVirDB,我们从人类粪便样本的1,543个病毒宏基因组中提取了929,886个长于1 kb的等位基因。因为以前没有应用过病毒预测,所以我们运行了为当前文章开发的病毒预测管道。对于NCBI GenBank(2019年6月1日下载),在去除那些被标记为不完整、受污染或嵌合的病毒基因组后,我们提取了28996个完整的病毒基因组。

病毒基因组的质量控制

Quality control of viral genomes

我们将CheckV v.0.7.0(数据库v.0.6)应用于所有的病毒序列,以识别封闭的基因组,估计基因组的完整性,并删除组装的原病毒上的侧翼宿主区域。根据直接末端重复(最小20bp)、倒置末端重复(最小20bp)或原病毒整合位点(预测病毒contig两端的宿主区域)来预测假定的完整基因组,此外还要求根据与CheckV参考基因组的比较显示>90%的估计完整性。剔除了少量含有大面积重复的序列,其长度占contig的30%以上。我们选择了所有估计完整性大于50%的基因组进行进一步分析,结果是MGV目录中的189,680个病毒contigs,IMG/VR的6,895个contigs,GVD的4,494个,HuVirDB的9,626个,GenBank的28,996个。我们通过使用Barrnap v.0.9-dev(https://github.com/tseemann/barrnap)搜索16S和18S rRNA基因来估计MGV序列中来自细胞生物的非病毒DNA的数量,该模型适用于细菌、古细菌和真核生物。要求排列覆盖≥70%的16S或18S rRNA基因,并显示e值<1×10-5。这个程序同样适用于用于病毒发现的18271个宏基因组组合,以估计16S和18S rRNA基因的背景水平。

分类学注释

Taxonomic annotation

病毒基因组的注释是基于氨基酸与来自NCBI GenBank完整基因组和crAss-like基因组的蛋白质数据库的比对。使用巴尔的摩分类法(DNA、dsDNA、ssDNA、ssDNA-RT、dsRNA、RNA、ssRNA-RT)以及ICTV分类法中的目、科和属的等级进行注释。DIAMOND v.0.9.32(选项:-query-cover 50-subject-cover 50-e-value 1e-5-max-target-seqs 1000)被用来将病毒蛋白与参考数据库对齐。然后将数据库中顶级命中蛋白质的分类转移到每个分类等级(巴尔的摩、阶、科、属)的每个蛋白质上。在缺少顶级命中的分类的情况下,如果下一个命中的比特分数在顶级命中的25%以内,我们就使用下一个命中。对于每个病毒基因组,我们在按比特分数加权后汇总了各蛋白质的注释。然后,每个病毒基因组被注释在最低的分类等级,在被注释的蛋白质中具有>70%的一致性。在科级,我们要求基因组至少有两个被注释的蛋白质,且与数据库的AAI大于30%。在属的级别上,我们要求基因组至少有三个被注释的蛋白质,与数据库的平均AAI>40%。作为验证,我们将我们的管道应用于NCBI GenBank的分类学注释的基因组,并从数据库中删除密切相关的基因。我们的管道在巴尔的摩、目、科和属的分类等级中分别取得了90.0%、98.7%、92.2%和73.5%的平均TPR,精度值为95.6%、99.9%、99.3%和96.5%。

宿主预测

Host prediction

我们使用CRISPR-spacer匹配和≥1 kb基因组序列匹配的组合,将病毒基因组与UHGG收集的细菌和古细菌基因组联系起来。UHGG包含286,997个基因组,代表来自人类肠道的4,644种细菌和古细菌,这些细菌和古细菌使用GTDB-tk v.0.3.1(GTDB版本89)进行分类。许多UHGG基因组是宏基因组组装的基因组,有时包含错误的分bin序列,包括那些来自病毒的序列。为了解决这个问题,我们保守地从UHGG基因组中确定并删除了2,043,531个宿主区域占<50%的contig。然后我们将剩余的UHGG contig与病毒基因组进行比较,并使用blast+软件包v.2.9.0中的blastn确定了≥1 kb的基因组序列匹配,其DNA一致性≥96%。接下来,我们使用CRT83和PILER-CR84的默认参数组合,从79,735个UHGG基因组的145,053个CRISPR阵列中确定了1,846,441个间隔体。两个工具预测的冗余CRISPR阵列根据基因组坐标进行了合并。使用blast+软件包v.2.9.0中的blastn(选项:-dust = no -word-size = 18)对病毒基因组进行间隔物搜索,允许在≥95%的间隔物长度上最多有一个错配或缺口。对于每个病毒基因组,我们随后汇总了与UHGG基因组的连接,并确定了最低的宿主分类等级,使各连接之间的一致性大于70%。

将病毒基因组聚类为vOTUs

Clustering viral genomes into vOTUs

根据Roux等人的建议,所有完整性大于50%的病毒基因组都被聚类为物种级的vOTU,其基础是95%的ANI和85%的较短序列的排列分数(AF)。所有基因组对之间的ANI和AF是用CheckV资源库中的一个自定义脚本估计的。该脚本使用blast+软件包v.2.9.0中的blastn(选项:perc_identity = 90 max_target_seqs = 10000)进行all-versus-all的局部比对。ANI被计算为每个基因组对之间的局部排列的长度加权平均DNA 相似度。AF是通过合并每个基因组对之间的排列坐标并除以每个基因组的长度来计算的。与MUMMer4相比,这种方法给出了一致的结果,而运行的时间只占一小部分。聚类是用一种贪婪的、基于中心点的算法进行的,其中。(1)基因组按长度排序,(2)最长的基因组被指定为新聚类的中心点,(3)所有在95%ANI和85%AF范围内的基因组被分配到该聚类中,并重复步骤2和3,直到所有基因组都被分配到一个聚类。

为了确定属和科级的vOTU,我们使用基因共享和AAI的组合对病毒基因组进行聚类。为了提高计算效率,每个物种级vOTU只包括最长的基因组。使用DIAMOND软件包v.0.9.25.126中的Blastp,选项为”-e-value 1 × 10-5-max-target-seqs 10,000”,对所有的病毒蛋白进行排列。对于每一对基因组,我们确定共享基因(e-值<1×10-5),计算其AAI,并计算共享基因的百分比。基因组之间的边缘是根据它们的最小AAI和基因共享来过滤的。用MCL v.14-137进行聚类,使用不同的膨胀因子参数值。然后,我们选择了过滤阈值和MCL膨胀因子,使其分别与NCBI RefSeq的属和科级注释的一致性最高。在科级,我们过滤了AAI小于20%或共享基因小于10%的基因组之间的连接,并使用1.2的膨胀因子。在属的层面上,我们过滤了AAI<50%或共享基因<20%的基因组之间的联系,并使用了2.0的膨胀因子。我们在NCBI的分类学注释的基因组上对我们的方法进行了基准测试,显示病毒集群显示了高度的分类学同质性(即每个集群的基因组分配到同一分类群的百分比;属排名=95.1%,科排名=93.7%),尽管有时将已知分类群分成多个集群(即每个分类群的基因组分配到同一集群的百分比:属排名=92.6%,科排名=74.5%)。

宏基因组读长招募

Metagenomic read recruitment

对病毒基因组数据库进行了读长映射,以评估其对微生物组中病毒的覆盖率。首先,我们下载了HuVirDB分析的人类肠道病毒组的reads,以及最近三项肠道病毒组研究的reads。我们下载了来自不同国家的1,257个粪便样本(每个国家最多50个样本)的整个宏基因组的短读数。为了确保病毒组基本没有细胞污染,我们运行了病毒组QC工具,并按照作者的建议,保留了富集分数>10的病毒组。为了提高计算效率,我们只分析了每个数据集的前1,000,000条测序读数。为了控制质量,我们放弃了那些太短(<70 bp)、包含模糊的碱基calls、碱基质量分数低(平均质量分数<30)或map到人类基因组(build hg19)的读长。

接下来,我们使用Bowtie v.2.3.2来构建基因组索引,用于read mapping。使用四个人类病毒数据库(MGV、IMG/VR、HuVirDB、GVD)中的所有基因组,加上NCBI GenBank创建了五个索引。另外五个索引是在每个物种级别的vOTU上只使用一个基因组创建的。接下来,我们使用Bowtie 2(选项‘–very-sensitive -k 20’)将测序reads与10个基因组索引中的每一个进行比对。测序reads和来自同一SRA研究的病毒基因组之间的比对被丢弃,以防止高估mapping率。此外,mapping identity <95%(例如,100bp读数的编辑距离>5)的比对也被丢弃了。在这些过滤步骤之后,我们对映射到每个数据库的高质量、非人类reads的百分比进行了量化。

系统发育分析

Phylogenetic analyses

我们采用Low等人所描述的方法构建了Caudovirales基因组的系统发育。首先,我们在60,439个物种级vOTU的代表基因组中确定了77个Caudovirales marker的集合。用HMMER v.3.1b2对这77个marker的HMMs进行搜索,并将排名靠前的hits单独与HMMs进行比对。然后用trimAl v.1.4对各个marker的排列进行修剪,以保留gap小于50%的位置,并进行连接,必要时填补缺失markers的空隙。只保留了包含至少三个标记和有大于5%的排列栏数据的基因组。这导致了28,780个基因组的多重序列排列,有22,711个排列列。然后,我们使用FastTree v.2.1.9,在WAG+G模型下,使用额外的标志”-mlacc 2 “和”-slownni”,从多序列排列中推断出一个串联的蛋白质系统发生树。然后用iToL对该树进行中点植根和可视化处理。

此外,我们构建了具有至少100个基因组的单个物种级vOTU的核心基因组单核苷酸多态性(SNP)系统发育树。SNPs是通过使用MUMmer4软件包v.4.0.0beta2中的nucmer将所有基因组与集群中最长的基因组进行比对,并使用默认选项来识别。SNPs在≥50%的基因组所覆盖的基因组位置被鉴定,我们保留了所有在≥50%的位置有数据的基因组。FastTree v.2.1.9被用来构建系统发育树,使用默认选项。

功能注释和蛋白质聚类

Functional annotation and protein clustering

使用Prodigal从189,680个MGVs中确定了大约11,837,198个蛋白质编码基因,并根据蛋白质家族数据库的HMM搜索对基因进行了注释,HMM包括:KEGG、TIGRFAM、Pfam-A、VOGDB(http://vogdb.org)和地球病毒家族数据库。所有的搜索都是使用HMMER软件包v.3.1b2中的hmmsearch工具,使用默认参数进行的。每个数据库对每个基因的注释都是根据其最高得分的排列进行的,比特分数≥50,但Pfam和TIGRFAM除外,这两个数据库使用了可信任的cutoff。抗生素抗性基因是用三种工具鉴定的。(1)Resistance Gene Identifier v.5.1.0,使用选项“-low_qualit”和基因特定的比特分数cutoff;(2)NCBI AMRFinder工具v.3.8.4,使用默认选项;(3)Resfams数据库,使用hmmsearch和HMM特定比特分数cutoff。DGRs是用DGRscan67工具用默认选项识别的。使用MMseqs2 v.10.6d92c58对所有的蛋白质进行聚类,AAI为30%,排列覆盖率为70%。

作者简介

image

Nikos C. Kyrpides, Ph.D

https://jgi.doe.gov/our-science/scientists-jgi/nikos-kyrpides/

原核生物超级项目负责人

Kyrpides博士于2004年加入能源部联合基因组研究所(DOE Joint Genome Institute),领导基因组生物学项目和微生物基因组和宏基因组的比较分析平台的开发(IMG)他在2010年成为宏基因组学项目负责人,并从2011年起负责微生物基因组和宏基因组的合并项目。在加入能源部联合基因组研究所之前,Kyrpides博士在伊利诺伊州芝加哥的Integrated Genomics Inc.领导基因组分析和生物信息学核心部门的发展。他在伊利诺伊大学厄巴纳-香槟分校和阿贡国家实验室跟随Carl Woese(古菌发现者)进行了博士后研究。Kyrpides博士的研究重点是微生物组研究,重点是微生物组数据科学。他的小组正在开发新的方法,以实现大规模的比较分析,以及大数据的挖掘和可视化

编译:周之超@UW-Madison

审核:刘永鑫 中科院遗传发育所

Reference

Stephen Nayfach,David Páez-Espino,Lee Call,Soo Jen Low,Hila Sberro,Natalia N. Ivanova,Amy D. Proal,Michael A. Fischbach,Ami S. Bhatt,Philip Hugenholtz,Nikos C. Kyrpides.MAGs achieve lineage resolution. Nature Microbiology,6, 960–970,(2021). https://doi.org/10.1038/s41564-021-00928-6



https://wap.sciencenet.cn/blog-3334560-1322853.html

上一篇:Nature子刊:宏基因组组装基因组实现谱系解析
下一篇:BMC Biology:香港城市大学孙燕妮组发表高准确度预测病毒宿主的工具
收藏 IP: 59.109.153.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 22:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部