woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

Nature子刊:细菌和古菌从域到种的完整分类

已有 7056 次阅读 2020-10-15 20:05 |个人分类:读文献|系统分类:科研笔记

image

细菌和古菌从域到种的完整分类

A complete domain-to-species taxonomy for Bacteria and Archaea

Nature biotechnology [IF: 36.558]

DOI:https://doi.org/10.1038/s41587-020-0501-8

发表日期:2020-05-04

第一作者:Donovan H. Parks1

通讯作者:Donovan H. Parks (donovan.parks@gmail.com)1

合作作者: Maria Chuvochina,
Pierre-Alain Chaumeil,Christian Rinke, Aaron J. Mussig,Philip Hugenholtz

主要单位:

1澳大利亚昆士兰大学化学与分子生物科学学院生态基因组学中心(Australian Centre for Ecogenomics, School of Chemistry and Molecular Biosciences, The University of Queensland, Brisbane, Queensland, Australia)

写在前面

分享标题:Nature子刊:细菌和古菌的从域到种的完整分类

关键字:基因组分类数据库、平均核苷酸同源性、物种簇、基因组装配、分类学、聚类

摘要

GTDB (Genome Taxonomy Database,基因组分类数据库)是系统发育的、基于基因组的分类法,可为从域到属约150,000个细菌和古细菌基因组提供等级归一化的分类。但是,大约40%的基因组在GTDB中缺乏种名。我们通过使用公认的平均核苷酸同源性(ANI)标准来设置物种界限,解决了这一局限,并提出包含所有公共可获得的细菌和古细菌基因组的物种簇。与以前的平均核苷酸同一性研究不同的是,我们选择了一个代表性的基因组作为有效命名法“类型”定义每个物种。在提议的24,706个物种簇中,有8,792个基于公开的名称。我们为剩余的15,914个物种簇分配了占位符名称,以为越来越多的未培养物种的基因组提供名称。这个资源为细菌和古细菌基因组提供了一个完整的从域到种的分类学框架,这将促进对未培养物种的研究并改善科学成果的交流

背景

测序和计算的进步使人们能够从培养和未培养的微生物中方便地获取基因组,并激发了诸如细菌和古细菌的基因组百科全书等计划,该计划产生了成千上万种由模式物种组装而成的分离基因组。许多未培养(culture-independent)的研究报道了从各种环境中获得的数千个宏基因组-组装基因组(metagenome-assembled genomes,MAGs)。基因组序列可指导物种分类,并已用于建立基因组分类学数据库(Genome Taxonomy Database,GTDB),该数据库是基于细菌和古细菌类群基因组的广泛分类法,基于单系和亲缘系进化的差异加以限定在这里,我们以早期工作为基础,进行扩展。通过根据平均核苷酸同源性(average nucleotide identity,ANI)去选择物种代表基因组,将GTDB涵盖的所有基因组识别为数量明确的物种簇(Species clusters)

考虑到细菌和古细菌的生物学、生态学和基因组方面的差异,很多物种定义的建议在使用。在这里,我们只对可操作的物种定义感兴趣,该定义有助于将基因组自动分配给物种,并能扩展到大型数据集,以允许将所有可用的和即将出现的基因组识别到物种簇中。可以使用全基因组ANI来实现这一目标,全基因组ANI已成为一种强大且广泛接受的物种定义的方法,发现95%ANI可以概括大多数现有物种。ANI是根据两个基因组之间共有的直系同源区域的相似性确定的,并且已经提出了许多计算该统计数据的方法。在这里,我们利用计算ANI的两项最新进展,这些进展允许将成千上万个基因组识别成物种簇:一种用于快速逼近ANI的启发式算法,以及一种与传统方法的结果高度相关的高效算法。我们还使用对比分数(AF;即两个基因组之间共有的直系同源区域的百分比)作为限制物种的附加阈值,以确保ANI值不基于一小套保守基因。

物种簇可以基于基因组间的多种ANI方式形成。一种常见的方法是图中节点代表基因组,边表示ANI≥95%的基因组。然后可以使用基于图形的聚类方法将图划分为假定的物种簇,而无需事先考虑现有的命名或分类法。相比之下,我们采用的是明确有效的或公开发表物种的名称,在可能的情况下将物种簇直接与命名法联系起来,并为每个物种簇产生一个唯一的代表。具体来说,我们确定了从物种的模式物种组装的基因组(随后称为模式物种基因组),并将其用作为ANI限制的物种簇的代表。我们认为,鉴于系统地对此类菌株进行测序,命名和分类学的重要性,因此使用模式物种基因组是限制物种的实用选择。美国国家生物技术信息中心(NCBI)目前使用ANI来对模式物种基因组进行识别,以发现错误分类的基因组组装。最近,人们提出了一种组合ANI/AF算法来描述模式物种基因组周围的属。我们将未分配命名的物种簇的基因组识别为de novo物种簇,并根据基因组质量选择具有代表性的基因组作为有效的命名模式物种。这遵循了最近尚未批准的提议,即基因序列适合细菌和古菌的模式物种,只要它们达到明确地限定分类群即可。提议的物种集群涵盖了NCBI数据库中所有公开的基因组,并已被纳入GTDB以提供分类框架,其中基因组在从域到种的所有分类等级上都有分配。

结果

模式物种基因组的鉴定

Identification of genomes assembled from type material

提议的物种簇是从包含153,849个基因组的数据集中确定的,该基因组是从NCBI汇编数据库中获得的,以及153个之前获得的古细菌MAGs(图1a)。在NCBI、LPSN、BacDive和StrainInfo上交叉参考,具有相同菌株编号的模式物种进行基因组组装。不幸的是,将基因组组装与命名类型相关联仍然是对当前可用资源的挑战。模式物种在每个菌种保藏中心有独一无二的编号,因此产生同一菌株编号的列表(例如Escherichia coli ATCC 11775 = CCUG 24 =…= NCTC 9001)。诸如LPSN和BacDive之类的命名资源数据库没有简单的机制来维护这些相同菌株编号的完整列表,并且NCBI上与基因组相关的菌株编号在很大程度上是各个提交者的责任。因此,基因组可能仅在命名资源的一个子集上由模式物种组装而成,并不总是与NCBI上基因组的命名状态一致(图1b)。另一种情况是由基因组在NCBI混为一谈从模式物种组装如果基因组已被“有效发表”(例如,Clostridium autoethanogenum DSM 10061)被注释,但品种名还没有被验证。如果在NCBI的任何编号可以与在LPSN,BacDive或StrainInfo的编号匹配,我们认为基因组将从模式物种组装而成。这导致跨越一个物种的模式物种将跨越7,104个物种的8,665个基因组鉴定为组装体。

图1. 基因组组装至物种簇的工作流程概述

Overview of workflow for organizing genome assemblies into species clusters.

image

a,从NCBI Assembly数据库中获得了151,188个细菌基因组和2,661个古细菌基因组的数据集,并补充了153个古细菌MAG。过滤除去8,098个低质量的基因组。在NCBI中将LPSN,BacDive和StrainInfo与物种和菌株信息进行交叉引用,以识别模式物种基因组。在数据库中与一个或多个基因组相关的9,162个有效或有效发表的物种名称中,每个都选择了一个具有代表性的基因组,并优先考虑模式物种基因组。基于物种代表与所有其他基因组之间的ANI,命名物种形成簇。由于在密切相关的物种代表之间形成了370个同名物种,因此产生了8,792个物种簇。使用优先考虑高质量基因组装配的贪婪聚类算法(greedy clustering algorithm),将未分配命名物种簇的基因组形成15,914个全新的(de novo)簇。所得的24,706个物种簇涵盖了所有145,904个质控基因组,并已纳入GTDB R04-RS89版的分类法中。

b,在LPSN、BacDive、StrainInfo和NCBI上模式物种基因组的重叠基因组,突出显示了这些不同命名之间相同的菌株编号的不完整性质。

c,用欧几里德距离描述基因组之间ANI的基因组概念图。选定三个代表性的有效或有效发表的物种名称的基因组显示为圆圈,其界限由半径较大的圆圈表示。分配给每个命名物种代表的基因组用相同颜色的正方形表示。未分配给代表的基因组显示为灰色。

d,根据c,另外选择三个de novo代表性基因组,其导致将所有基因组分配给一个物种簇。

命名物种的代表性基因组

Representative genomes for named species

通过为9,162个与145,904个质控基因组中的一个或多个相关的有效或有效发表的物种名称中的每一个选择一个单一的代表性基因组来形成物种簇(图1a)。在这些物种中,有5,942个(64.9%)由一个单一的基因组组成,该基因组被选作该物种的代表。剩余的3,220个物种包含多个基因组,并代表基因组通过以下条件优先选择:(1)模式物种基因组(2,632个物种),(2)由NCBI的模式物种组装注释的基因组(123个物种),(3)由NCBI的参考或代表性基因组(220种)作为指定的基因组或(4)由亚种(8种)的模式物种组装而成的基因组。在1,506个案例中,一个基因组类别中仍存在多个潜在的代表性基因组(即多种模式物种基因组),并且通过考虑NCBI元数据和基因组之间的ANI来选择代表,在少数情况下是通过手动调查(219种)。总体上,在9,162种物种中,有7,104种(77.5%)由模式物种基因组代表(图2a),证明了对所有可用模式物种进行测序的方式是成功可靠的,如《细菌和古细菌基因组百科全书》。

图2. 根据基因组的性质选择物种代表

Properties of genomes selected as species representatives

image

a,为9,162个有效或公开发布的物种选择代表性基因组。外环表示选自不同元数据种类的基因组的比例。中环表示每个元数据种类中由单个基因组或多个基因组组成的物种的比例。内环表示基于来自单个或多个命名网站(即LPSN,BacDive,StrainInfo)的相同的菌株信息,被指定为模式物种基因组的比例。

b,24,706个物种簇的代表性基因组包括了145,904个质控基因组。外环表示命名和全新物种簇的比例。中环表示具有分离的物种,高质量MAG(HQ-MAG;完整性> 90%,污染<5%),中等质量MAG(MQ-MAG;完整性≥50%;污染<10%)和以单个扩增基因组(SAG)为代表基因组的比例。内环表示由单个基因组或多个基因组组成物种簇的比例。插图显示细菌和古细菌物种使用相同配色方案和布局。

命名物种簇的形成

Formation of named species clusters

基于基因组之间的ANI和AF限制物种簇。每个命名物种代表的ANI限制半径设置为95%ANI,除非两个代表的ANI> 95%(图3a,b)。在这种情况下,代表的ANI半径设置为最接近代表的值,最大为97%,ANI≥97%的物种代表被视为同名物种(图3c)。然后将所得的ANI限制半径的结果用于形成8,792个非同名代表基因组的物种簇(图1c)对于数据库中剩余的137,112个基因组中的每一个,AF> 65%的为最接近的代表,如果该代表在其ANI限制半径之内,则将基因组分配给该代表。这导致将104,763(77.8%)个基因组分配给命名物种簇,其中最丰富的物种反映了高度测序的人类相关微生物。分配到的基因组的大多数(87.3%)仅满足单个物种的ANI限制半径和65%AF标准。符合多重代表物种分配标准的基因组主要分类为Escherichia flexneri (68.1%),Escherichia dysenteriae (9.0%)或Neisseria meningitidis_B (8.0%)。在少数情况下(461个基因组;0.44%),出现了传递情况,即基因组不在最接近的代表的ANI范围内,而在一个或多个其他物种代表的ANI半径内(图3d)。这些基因组没有被分配,以反映在它们的系统发育邻域中的ANI范围降低,这些物种几乎完全位于Escherichia (95.2%)和Serratia (4.3%)内。

图3. 代表物种间不同ANI值产生不同限制物种的图例

Illustrative examples of circumscribing species for varying ANI values between species representatives

image

基因组之间的ANI由其欧几里得距离表示。代表性的基因组显示为圆圈,其限制半径由较大的圆圈表示。代表物种基因组分配到相同物种用相同颜色的正方形表示。
a,ANI小于95%的代表性基因组的限制半径为95%。

b,ANI在95%到97%之间的代表性基因组的限制半径等于代表之间的ANI,在此示例中为96%。

c,ANI>97%的代表性基因组被视为同名物种,并且仅保留具有优先权的物种代表。在此示例中,代表性基因组之间的ANI为98%,橙色显示的物种具有优先权。

d,传递情况说明了一个基因组(红色显示)不在最接近的物种代表ANI限制半径(橙色;ANI半径为96%)之内,因此即使在另一个代表的限制半径(以绿色显示;ANI半径为95%)内也未分配给任何代表。

GTDB中的同物异名(Synonyms)

Synonyms in the GTDB

370个物种被重新分类为同物异名,因为它们的ANI>97%对具有命名优先权的另一个物种在确定数量的物种名和保留有效或公开发表的大多数物种名(9,162个中的8,792个;96%)之间的实用且折中的方案。ANI定义同名物种在医学的重要分类单元中是最有必要的,例如Brucella,根据NCBI分类法,其中包括9个物种(Brucella melitensis,Brucella vulpis,Brucella ovis,Brucella canis,Brucella neotomae,Brucella suis,Brucella ceti,Brucella abortus和Brucella microti)。这些在GTDB中被重新归类为单独的一个物种B. melitensis,因为这些同名物种的代表物种ANI> 99.5%,AF> 93%,除了B. vulpis基因组的ANI为97.5%和90%AF。这些基因组的高度相似性表明,应将它们分类为单独的亚种或变种,这在之前提出过的。类似地,一些其他同名物种的例子被我们的ANI定义法支持,同时已经被合并到GTDB分类法中。这些包括作为Mycobacterium tuberculosis同物异名物种有Mycobacterium africanum,Mycobacterium bovis,Mycobacterium caprae,Mycobacterium canettii,Mycobacterium microti,Mycobacterium mungi,Mycobacterium orygisMycobacterium pinnipediiBacillus plakortidisBacillus lehensis作为Bacillus oshimensis的同物异名物种;Burkholderia pseudomallei作为Burkholderia mallei的同物异名物种;Halomonas sinaiensi作为Halomonas caseinilytica的同物异名物种。请注意,在370个ANI定义的同物异名物种中,有192个(52%)不是基于模式物种,因为无法获得基因组组装。一旦模式物种序列变得可用,将需要重新评估这些同物异名物种的状态。

建立全新的物种簇

Establishing de novo species clusters

未分配命名物种的32,349个基因组使用贪婪聚类方法从头聚类,有利于选择代表每个聚类的高质量基因组(图1d)。基因组质量的确定是通过以下标准来确定的,完整性和污染性,装配质量(例如N50,contig数量)以及相对于MAG或单个扩增基因组(SAG),优先选择分离基因组。代表性基因组的选择包括四个步骤:(1)通过估计的基因组质量对没有物种分配的基因组进行排序;(2)选择最高质量的基因组作为新物种簇的代表;(3)确定物种特异性ANI新物种簇的限定半径,以及(4)使用与命名物种簇相同的ANI和AF标准将基因组临时分配给新簇。重复这些步骤,直到将所有基因组都分配到物种簇。最后,对非代表性基因组进行重新聚类,以确保已将它们分配给最接近的全新的物种代表。共生成15,914个全新的物种簇,其中大多数以MAG(61.6%)表示,并包含单个基因组(68.8%;图2b)。

GTDB代表物种作为模式物种的适用性

Suitability of GTDB representatives as type material

代表命名物种的8,792个GTDB代表物种通常是高质量的,其中96.4%满足MIMAG标准,即高质完整性(≥90%)和污染(≤5%),以及85.1%包含接近完整的16S核糖体RNA序列。据估计,全新的GTDB代表物种中的大多数(58.4%)具有≥90%的完整性且污染≤5%,这被认为适合作为模式物种的基础序列。在更为宽松的80%完整性的提议下,适合用作模式物种的代表物种数量会增加到73.5%。但是,如果按照一般建议,需要存在一个近乎完整的16S rRNA基因(≥1,200bp),潜在模式物种的代表物种数量会大幅度降低(90%完整性时为37.0%;80%完整性时为39.8%),这种现象是由于该基因常在MAGs中缺失造成的。GTDB网站上提供了满足高质量MIMAG标准的90,149个基因组的列表,其中包括12322个GTDB代表物种。

提议物种簇的背景介绍

Landscape of proposed species clusters.

24,706个物种簇中的大多数由一个基因组组成(65.3%),而只有919个簇(3.7%)由≥10个基因组组成(图4a)。大量簇仅由MAG组成(39.8%;9,839个物种),其中大多数是单个序列(67.5%;6,646个物种)。虽然使用ANI限制半径(ANI circumscription radii)在95%和97%之间来保留已公布的物种名称,但在8,792个命名物种簇中,有8,407个(95.6%)的条件为95%(图3a)。值得注意的是,在4,660个具有≥3个基因组的物种簇中,有97.3%的群体在95%ANI时聚类(即所有成对的基因组ANI≥95%),而所有物种在93.5%的ANI时聚类(图4b)。代表物种的种间ANI值表明,一个属中的大多数物种彼此高度不同,在927,064个物种比较中,具有大于96.2%的物种ANI<90%(图4c)。相反,在属中含有多个物种时,ANI最接近属内物种的有19,898个代表物种,其ANI均匀的分布在78%和95%之间(图4d)。

图4. ANI限定GTDB物种簇的关键特性至代表性基因组

Key properties of GTDB species clusters circumscribed by ANi to a representative genome

image

a,在24,706个物种簇中的每个簇含有的基因组数量。

b,对于具有≥3个基因组的4,660个物种簇,在不同的ANI阈值下形成聚类的物种百分比。

c,同一属内88,1840对物种代表的ANI值。由于基因组之间缺乏同源区,无法为45,224个基因组对计算ANI值。

d,ANI值介于19,466个物种代表的ANI值和同一属中最接近的物种代表的ANI值之间。对于432种,最接近的代表不具有足够的序列相似性,无法计算出可靠的ANI值。

e,针对≥3个基因组的4,660种物种,medoid平均ANI与所选代表物种的平均ANI之间的差异。

f,多物种的ANI限制半径内,26,129个基因组的最接近和第二最接近的代表物种基因组之间的ANI差异。

种内ANI紧密聚类与相对小的种间ANI值表明,用基因组来表示物种簇是不严谨的(critical)。可以通过使用类似Microbial Genomes Atlas的方法,在每个4,660种具有≥3个基因组的物种簇中使用medoid基因组,来说明这一点。对于1,574个簇,medoid基因组与本研究中提出的代表基因组相同。对于剩下的3,086个物种簇,我们计算了所有medoid基因组中的平均ANI,并提出了代表性的基因组。这些ANI均值的平均差异为0.35±0.51%,第90个百分位数为0.96%,最大差异为3.76%(图4e)。在具有≥3个基因组的物种簇中重新分配基因组,以medoid基因组作为代表物种,使121,939个基因组中的121,445个(99.6%)被分配到相同物种,其中362个(0.3%)分配给不同物种和132个(0.1%)未通过物种分配标准。通过考虑其他物种的ANI限制半径内包含基因组的物种数量,我们检查了物种分配的唯一性。我们发现,在8,579个物种中包含≥2个基因组(即除了代表性基因组以外的至少一个基因组),有456个(5.3%)基因组在ANI范围内≥2个物种(0.90%≥3个物种;0.23%≥ 4种)。456个物种来自命名的簇(202)和全新的(254)物种簇,其中超过一半的物种(278个)ANI限制半径为95%。尽管这表明物种分配可能存在歧义,但最接近和第二接近的代表基因组之间的ANI平均差异相对较高,为2.0±1.6(图4f),表明将基因组分配给最接近的代表基因是可靠的。值得注意的是,在121,198个非代表性基因组中,有26,129(21.5%)个处于多种物种的ANI限制半径内,其中21,915(83.9%)来自四个集中分类的医学临床重要菌属:Escherichia具有13,131个基因组,Salmonella具有5,808个基因组,Listeria具有1,775个基因组和Neisseria具有1,201个基因组。

物种簇的稳定性评估

Evaluating robustness of proposed species clusters

我们通过形成不考虑模式物种或基因组质量的新簇,进一步评估了所提出物种簇的稳定性。首先,随机二次抽样由大于10个基因组组成的GTDB物种簇,共抽取10个基因组作为简化的基因组数据集,以减少计算需求并使均匀加权单个物种。通过随机选择基因组作为代表物种,直到所有基因组都被分配到一个簇中为止,最终得到49,902个基因组归类到物种簇中,该物种簇使用与de novo物种簇相同的聚类标准确定。进行了五个独立试验,以探讨使用随机选择的代表物种对物种簇形成的影响。在所有试验中,随机种子簇与提议的GTDB簇高度一致,在24,706个簇中有98.3±0.05%是相同的,在49,902个基因组中有99.4±0.06%保留了相同的物种分配。在五个随机试验中共有129个提出的物种簇不一致,大多数(85个物种;65.9%)来自高度抽样的属(例如Neisseria包含4个物种,Paenibacillus包含4个物种,Streptococcus包含4个物种,Streptomyces包含16个物种),这些属的ANI限制半径> 95%。

基于ANI物种簇的唯一性

Monophyly of ANI-based species clusters

在7,293个物种中,最大似然树中恢复了6,854个(94.0%)物种作为单系统树,在29,564个基因组中的29,115个(98.5%)基因组具有与假定的系统发育进化树的拓扑结构一致的物种分配。在439个多源物种(polyphyletic species)的2,592个基因组中,有2,143个(81.8%)具有与系统发育进化树的拓扑结构一致的物种分配。这表明多源性是少数不一致基因组的结果,这可以由263个(59.9%)物种在属水平的进化树中只有一个错误放置的基因组所证明。为了进行比较,在同一组进化树上,NCBI分类法定义了2,894个物种,其中包括2个以上的基因组,其中2,027个(70.0%)形成了单系统簇。6,493个基因组被分配到867个多系NCBI物种之中,有5,594个(86.2%)基因与系统发育进化树的拓扑结构一致的物种分配。

与NCBI物种分配的比较

Comparison with NCBI species assignments

在具有NCBI分类标准的143,566个基因组中,有79.6%具有物种分配,这是由于在NCBI分类标准内具有公认物种名称的深度测序物种(例如Staphylococcus aureus具有9,444个基因组装配)的结果。在这些中的30.8%,在建议的GTDB物种簇下具有不同的物种分配(图5a)。这主要是由于E. coli基因组(变化的26.7%)被重新分配给E. flexneriE. dysenteriae,以及一些深度抽样物种的通用名称的改变,例如Bacillus(7.5%),Campylobacter(6.4%)和Shigella (5.1%)。可以说,更相关的指标只是比较代表物种,以消除高度抽样物种的扭曲效应。使用该标准,在24,080个提议的具有NCBI分类标准的代表物种中,不到一半(10,323;43%)被归类到种水平(图5b)。在NCBI分类的代表物种中,超过三分之一(3,620;35.1%)在GTDB中具有不同的物种分配。这些变化的大部分(2,473;68.3%)是由于解决了多系属或者通过相对进化差异使属标准化,而使物种的通用名称发生了改变。十个最常见的重新命名的属在两种分类法中占总差异> 30%,并包括公认的多系群,例如Pseudomonas(8.5%),Bacillus(5.5%)和Clostridum(3.3%)。

图5. 将提议的物种分配与NCBI分类进行比较

Comparison of proposed species assignments with the NCBI taxonomy

image

a,b,显示了143,566个基因组(a)和24,080个物种代表(b)在NCBI分类中的结果。如果一个基因组的双命名物种名称在NCBI分类法中相同,则不改变其分类;如果NCBI分类没有物种分配,则被动更改;如果提议的物种名称与NCBI分类不同,则主动更改。在下面的条中,主动更改情况包括物种的属名更改,种名更改以及属名和种名同时更改。列出了前三个最常更改的NCBI属和种。

讨论

模式物种是现代细菌和古细菌命名法和分类学的基础。理想情况下,基于基因组的分类法应使用模式物种为命名和分类提供参考点。我们将这一概念与ANI相结合,为科研人员提供了清晰可获得的细菌和古细菌基因组的物种分类。为此,我们重新定义了模式菌株在固定ANI距离(通常为95%)内细菌物种簇的每个基因组,并从该点开始进行分类

使用ANI限制物种去代表基因组,提供了一个可定量和方便操作的物种定义。但是,这一定义并不总是与有效的命名或公开发表的物种名一致,从提议的370个物种变为同名可以看出这一点。以Brucella中的9个物种重新分类为B. melitensis为例。尽管支持这种重新分类的基因组证据已被认可三十多年,但人们更注重这种变化将给临床和管理机构带来的挑战。我们感谢这些关注,但是选择了提出的数量物种定义,因为我们认为它对大多数科学界都有最大的用处,并且最好地反映了向前对于物种限定的观点。术语“变种”或“亚种”将被合并到将来的GTDB版本中,以通过将物种名称重新分类为亚种下的修饰词(例如B. vulpis将被归类为B. melitensis subsp. vulpis.),而与之前的命名相关联。

可以说,提出的物种簇引起的最具争议的是在重新分类的Escherichia/Shigella中。GTDB将Shigella的物种归为Escherichia,而在拟议的物种簇下,Escherichia sonneiEscherichia boydiiE. flexneri的异型同名词。此外,基于ANI的物种对于模式菌株E. coliE. flexneriE. dysenteriae的限制,导致在NCBI分类法中7,212个E. flexneri的基因组和1,183个E. dysenteriae的基因组分别被定义为E. coli。这表示在NCBI将近80%的E. coli的基因组进行了重新分配。重新分配后导致这些物种的传统属性不再成立,例如E. dysenteriaeE. flexneri由人致病菌株组成。因此,为避免混淆并更好地反映这些菌株的高基因组相似性和进化关系,应谨慎地将E. flexneriE. dysenteriae作为E. coli的同名词(ANI分别为96.4%和96.2%)。

几乎所有提出的物种簇(占物种的98.2%)的ANI限制半径均为95%。因此,我们可能希望种内ANI值接近90%,反映出代表性基因组周围“10%直径”。在实践中,所有物种簇在93.5%ANI时聚类,绝大多数(97.6%)在95%ANI时形成聚类。这种紧密的种内基因组聚类可能反映了物种形成的进化势,因为这对于生物信息学而言生产直径为10%的物种簇是微不足道的。紧密的种内聚类具有实用性,如medoid和随机代表试验所证明的那样,选择物种代表并不是关键。因此,选择模式物种去代表种群聚类是最实用的选择,因为它们直接与命名法联系在一起。属内最接近的物种代表之间的ANIs几乎均匀地分布在78%和95%ANI之间(图4d)。该结果与ANI介于83%和95%之间的遗传不连续性有关。这些看似矛盾的结果可能反映了物种定义的差异,但主要是将视角从大型基因组数据集中的所有成对比较更改为最近的物种代表属间ANI值的结果。后一种观点表明,属内种间属的多样性的一个连续变化的,尽管这里给出了结果,可能最终会挑战使用ANI作为新物种来明确定义物种分类的方法。在这种情况下,其他定义物种的方法可能最终更合适,例如重新分类。

将全新的物种簇纳入GTDB,并要求GTDB每半年更新一次。重点是在GTDB版本之间,维护每个物种簇所选择的代表性基因组,以便它们可以有效的命名模式物种。但是,这必须将使用高质量模式菌株基因组作为物种代表,与不断变化的分类学观点之间保持平衡。从组装本身或相关的元数据(即不正确的物种或菌株装配)的角度来看,最终有可能会发现某些选定代表的基因组组装是错误的。我们预计,选择一个代表性基因组作为每个物种的命名类型将使这些基因组受到更严格的群体审查,这将有助于发现此类问题。最终,这些问题意味着每次更新都会对物种簇发生一些变化。但是,由单个物种代表将基因组装配组织成物种簇,这提供了一种群落资源,该资源解决了许多应用中需重复计算大量可用基因组装配体的计算需求。它还提供了一组常见的物种代表,对于开放性问题(例如,推断大型系统发育树),可以进行对比选择解决方法。这与诸如GTDB之类的工作特别相关,这些工作依赖于大规模的参考树来建立类群的单一性和稳定性。

我们提出的定量物种允许可伸缩和自动分配基因组到物种簇。我们将这些物种簇整合到GTDB和GTDB Toolkit中,这是一个对基因组装配进行分类的开源工具。这些簇包含NCBI Assembly数据库中的近150,000个公共基因组,并将随着每个GTDB版本的发布而更新。这提供了一个完整的基于基因组的分类法,其中所有基因组都具有从域到种的分类,并建立了用于限制物种的代表性基因组我们预计定量定义和定期更新的物种簇的可用性将大大改善微生物研究的分类学分辨率,从而改善科学结果的交流

参考文献

Donovan H. Parks,Maria Chuvochina,Pierre-Alain Chaumeil,Christian Rinke,Aaron J. Mussig,Philip Hugenholtz.A complete domain-to-species taxonomy for
Bacteria and Archaea.Nature Biotechnology volume 38, pages1079–1086(2020) https://doi.org/10.1038/s41587-020-0501-8

编译:席娇  西北农林科技大学

责编:马腾飞  南京农业大学

审核:刘永鑫  中科院遗传发育所

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://wap.sciencenet.cn/blog-3334560-1254510.html

上一篇:Nature:Jeff Dangl团队揭示贪噬菌属在微生物组中维持根的生长
下一篇:mSystems:华南农大揭示水稻SST基因调控根际微生物协同耐盐机制
收藏 IP: 59.109.154.*| 热度|

1 汪强

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 14:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部