woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

GTDB:基因组分类数据库和物种注释和进化树构建工具GTDB-tk

已有 11147 次阅读 2020-9-29 21:03 |个人分类:软件|系统分类:科研笔记

简介

基因组分类数据库:GENOME TAXONOMY DATABASE

网址:https://gtdb.ecogenomic.org/

image

该数据库已经于2018/2020连续发表两篇Nature Biotechnology,软件于2019发表于Bioinformatcs,即可为细菌分类提供参考数据库,同时提供了物种分类、进化树构建的全套工具,绝对是服务到家的好工具。

image

image

该数据库发布2年,引用700余次,瞬间成为细菌分类领域最权威的数据库和软件之一。

热心肠日报简介(NBT2018)

原文链接:https://www.mr-gut.cn/papers/read/1087194889

Nature子刊:依据细菌共有单拷贝蛋白构建新的生命之树

创作:花开 审核:高春辉

2018年10月01日

这一分类系统以细菌中普遍存在的120个单拷贝蛋白质(bac120)为基础

在对多分组类别消歧后,根据相对演化散度标准化和分级,得到基因组分类数据库(GTDB);

涵盖了94759个细菌基因组,在属、种分辨率水平上描述了99个门,其中不可培养细菌占14.4%

58%在NCBI分类系统中已收录基因组的分类地位有变动,例如新系统中变形菌门重新划为6个不重叠的新类群

一些难以确定分类地位的物种(如不可培养微生物)也被系统的整合了进来。

推荐语:16S rRNA基因是现代细菌分类系统的基石,但以单基因核酸差异构建的细菌生命之树并非尽善尽美。Nature Biotechnology报道的将单基因分类系统扩展到120个细菌共有单拷贝蛋白质,在大量氨基酸水平差异的基础上构建新的分类系统(命名为GTDB),大幅修正了现有的细菌生命之树。

GTDB与NCBI分类系统比较

较多微生物的分类地位发生变化,如梭菌目重新划分为多个新目;而很多纲重新归类为拟杆菌纲(NBT 2018图5)。

image

GTDB分类法中指定为梭菌或拟杆菌的基因组的NCBI和GTDB分类的比较。

(a)比较GTDB分类法中分配给梭菌门的2368个细菌基因组的NCBI(左)和GTDB(右)目级别分类。原本的一个目重新划分为多个目。括号中表示通过NCBI归类为梭菌纲以外的纲的基因组。 (b)比较GTDB分类法中分配给拟杆菌纲的2,058个细菌基因组的NCBI和GTDB纲级别分类。 括号中表示通过NCBI分类为除拟杆菌纲以外的门的基因组。

软件和数据库安装

Github: https://github.com/Ecogenomics/GTDBTk

GTDB-Tk是一个软件工具包,用于根据基因组数据库分类法GTDB为细菌和古细菌基因组分配客观的分类法。 它旨在与最近的进展一起使用,从而可以直接对环境样本中获得数百或数千个由基因组组装的基因组(MAG)进行物种分类注释。 它也可以用于分离和单细胞的基因组物种注释。

本次测试版本为 GTDB-Tk v1.3.0,于2020年7月17发布,参考数据为95版。

硬件要求:

  • 内存100Gb
  • 硬盘27Gb
  • 64核1小时可分析1000个细菌基因组

Conda安装:

conda create -n gtdbtk
conda activate gtdbtk
# gtdbtk-1.3.0, 2020-9-27
conda install -c bioconda gtdbtk

download-db.sh自动下载数据库,将下载至conda中的envs/gtdbtk/share/gtdbtk-1.3.0/db/:

download-db.sh

(可选)手动下载和配置GTDB参考基因组最新版(测试时为95版,34Gb)

mkdir -p ~/db/gtdb & cd ~/db/gtdb
# 下载解压
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz
tar zxvf gtdbtk_data.tar.gz
# 设置数据库位置,注意修改软件安装位置
locate gtdbtk.sh # 查找配置文件位置
# 修改PATH=后面的路径为数据库解压目录,如/home/meta/db/gtdb/release95/
vim /conda/envs/gtdbtk/etc/conda/activate.d/gtdbtk.sh

此外:GTDB数据库国内下载备份链接见 http://nmdc.cn/datadownload

使用

教程:https://ecogenomics.github.io/GTDBTk/

运行gtdbtk -h显示帮助,主要有以下功能模块

工作流程:

  • classify_wf:基于GTDB参考树,基因组物种注释,包括鉴定、比对、分类三步
  • de_novo_wf:推荐新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰

主要方法模块:

  • identify:基因组中鉴定标记基因
  • align:多序列对齐
  • classify:确定物种分类
  • infer:从多序列对齐序列建树
  • root:使用外类群定根
  • decorate:使用GTDB分类注释树

工具:

  • infer_ranks: 使用RED估计分类级和内部结果
  • ani_rep: 计算GTDB代表基因组的ANI
  • trim_msa: 多序列对齐结果筛选
  • export_msa : 导出未剪裁的细菌/古菌多序列对齐文件

测试:

  • test:使用3个古菌基因组测试分类流程
  • check_install: 检查数据库文件是否存在且位置正确

测试流程test

检查数据库,结果显示OK和Done表示正常

gtdbtk check_install    

正常显示如下:

GTDB-Tk v1.3.0
gtdbtk check_install
Using GTDB-Tk reference data version r95: meta/db/gtdb/release95/
Running install verification
Checking /home/meta/db/gtdb/release95/
         |-- pplacer          OK                                 
         |-- masks            OK                                 
         |-- markers          OK                                 
         |-- radii            OK                                 
         |-- msa              OK                                 
         |-- metadata         OK                                 
         |-- taxonomy         OK                                 
         |-- fastani          OK                                 
         |-- mrca_red         OK                                 
Done.

测试流程,无报错确定程序的软件和数据库正常

gtdbtk test --out_dir gtdbtk_test

运行成功显示如下内容:

GTDB-Tk v1.3.0
gtdbtk test --out_dir gtdbtk_test
Using GTDB-Tk reference data version r95: /home/meta/db/gtdb/release95/
Command: gtdbtk classify_wf --genome_dir gtdbtk_test/genomes --out_dir gtdbtk_test/output --cpus 1
Test has successfully finished.

结果目录(gtdbtk_test/output)中主要结果文件:

ar122为古菌相关文件,bac120为细菌相关文件。此示例为3个古菌,细菌文件为空。

  • gtdbtk.ar122.classify.tree 树文件
  • gtdbtk.ar122.summary.tsv 分类结果文件
  • gtdbtk.ar122.markers_summary.tsv 使用标记基因情况
  • gtdbtk.ar122.msa.fasta 多序列对齐文件(输入+参考)
  • gtdbtk.ar122.user_msa.fasta 多序列对齐文件(输入)

分类结果示例

user_genome     classification  fastani_reference       fastani_reference_radius        fastani_taxonomy        fastani_ani     fa
genome_2        d__Archaea;p__Thermoplasmatota;c__Thermoplasmata;o__Methanomassiliicoccales;f__Methanomethylophilaceae;g__VadinCA1
genome_3        d__Archaea;p__Thermoplasmatota;c__Thermoplasmata;o__Methanomassiliicoccales;f__Methanomethylophilaceae;g__VadinCA1
genome_1        d__Archaea;p__Methanobacteriota;c__Methanobacteria;o__Methanobacteriales;f__Methanobacteriaceae;g__Methanobrevibac

多序列对齐示例

>genome_1
REPLFLTIMVSFLATSGVSIDGSVDDLEKESIGAG-YCKEVLDLTEHCPMKGEEFIDDKAV-NIGIHAKKDYNILIVHEEGAYY
>genome_2
RSPVLLEFMVEMIVTSGVAIEGSSDELKDVSAAAA-YCKEVLDLCAECLMDNQEYVENKAV-AIGIYSKTDPDLLIMQREGAYY
>genome_3
------------------------------------------DLSSECPMDNQEYIEDKAV-AIGIYSKVSPDVLILHDEGAYY

物种注释流程

classify_wf全称为 Classify workflow,即分类工作流程,主要包括了identify鉴定单拷贝标记基因、align多序列对齐和classify物种分类鉴定三步。

https://github.com/YongxinLiu/Note/tree/master/Meta/dRep/bin 中有6个基因组草图的fasta压缩文件。下载测试此流程。

(可选)解压数据,此流程支持gz压缩格式直接作为输放

# gunzip bin/*.fa.gz

classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见gtdbtk classify_wf -h

gtdbtk classify_wf --genome_dir bin \
    --out_dir classify_wf \
    --extension gz \
    --prefix bin \
    --cpus 8

主要结果文件描述:此处全为细菌基因组,因此均为bin.bac120开头的结果

物种注释 bin.bac120.summary.tsv

user_genome     classification  fastani_reference       fastani_reference_radius        fastani_taxonomy        fastani_ani    
K4093L.5.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__  
B4018L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__  
W4194L.6.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__  
K4096L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__ 
W4194L.3.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__ 
L4105L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__PALSA-1006;s__   

多序列对齐结果建树infer

# 6个基因组的120个单拷贝基因建树,1秒
time gtdbtk infer \
    --msa_file classify_wf/bin.bac120.user_msa.fasta \
    --out_dir infer \
    --cpus 8 \
    --prefix bin

结果可用itol(https://itol.embl.de/)在线可视化

image

如果基因组比较多,而且添加上分类、来源注释,结果如下:

image

人类肠道基因组集基因组进化树(Almeida, 2020, Nature Biotechnology)。

具体的画法可以参照itol网站的帮助。也可以使用我们介绍过的脚本输入快速制作注释文件。

进化树构建流程

从基因组直接建树,de_novo_wf:构建新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰。

输入文件为细菌基因组的目录(—genome_dir),指定扩展名类型(—extension),以及输出目录(—out_dir)。必须参数有需要选择细菌(—bacteria)/古菌,指定外类群(—outgroup_taxon)。可选常用参数有结果前缀(—prefix)和使用线程数(—cpus)。

# 约4小时。
gtdbtk de_novo_wf --genome_dir bin \
    --out_dir de_novo_wf \
    --extension gz \
    --bacteria \
    --outgroup_taxon p__Patescibacteria \
    --prefix bin \
    --cpus 8

主要结果有:

  • bin.bac120.decorated.tree: 修饰的有根树
  • bin.bac120.decorated.tree-table:树相关信息表
  • bin.bac120.user_msa.fasta:多序列对齐文件

附录:GTDB数据库简介

基因组位于 https://data.ace.uq.edu.au/public/gtdb/data/releases/ 中相应版本的genomic_files_reps目录下,

建议大家直接下载latest目录下的最新版,可以保持下载位置一致,同时记录版本号(当前为2020年7月13号更新95版)。

GTDB-tk使用的数据库,位于auxillary_files文件夹中的gtdbtk_data.tar.gz,95版为33G

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz

物种注释文件,古菌3千多种,细菌,19万多种

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/ar122_taxonomy_r95.tsv
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/bac120_taxonomy_r95.tsv

参考基因组文件,32G

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/genomic_files_reps/gtdb_genomes_reps.tar.gz

参考文献

软件:Pierre-Alain Chaumeil, Aaron J Mussig, Philip Hugenholtz & Donovan H Parks. (2019). GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics 36, 1925-1927, doi: https://doi.org/10.1093/bioinformatics/btz848

120个基因单拷贝分类法;Donovan H. Parks, Maria Chuvochina, David W. Waite, Christian Rinke, Adam Skarshewski, Pierre-Alain Chaumeil & Philip Hugenholtz. (2018). A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nature Biotechnology 36, 996, doi: https://doi.org/10.1038/nbt.4229

种特异的方法和数据库 Donovan H. Parks, Maria Chuvochina, Pierre-Alain Chaumeil, Christian Rinke, Aaron J. Mussig & Philip Hugenholtz. (2020). A complete domain-to-species taxonomy for Bacteria and Archaea. Nature Biotechnology 38, 1079-1086, doi: https://doi.org/10.1038/s41587-020-0501-8

使用实战:Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S. Pollard, Ekaterina Sakharova, Donovan H. Parks, Philip Hugenholtz, Nicola Segata, Nikos C. Kyrpides & Robert D. Finn. (2020). A unified catalog of 204,938 reference genomes from the human gut microbiome. Nature Biotechnology, doi: https://doi.org/10.1038/s41587-020-0603-3

调用的软件引文如下:

基因预测软件Prodigal:Doug Hyatt, Gwo-Liang Chen, Philip F. LoCascio, Miriam L. Land, Frank W. Larimer & Loren J. Hauser. (2010). Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119, doi: https://doi.org/10.1186/1471-2105-11-119

参考树插值法建树pplacer:Frederick A. Matsen, Robin B. Kodner & E. Virginia Armbrust. (2010). pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics 11, 538, doi: https://doi.org/10.1186/1471-2105-11-538

快速建树软件FastTree:Morgan N. Price, Paramvir S. Dehal & Adam P. Arkin. (2010). FastTree 2 – approximately maximum-likelihood trees for large alignments. PloS One 5, e9490, doi: https://doi.org/10.1371/journal.pone.0009490

基因组距离估计Mash:Brian D. Ondov, Todd J. Treangen, Páll Melsted, Adam B. Mallonee, Nicholas H. Bergman, Sergey Koren & Adam M. Phillippy. (2016). Mash: fast genome and metagenome distance estimation using MinHash. Genome Biology 17, 132, doi: https://doi.org/10.1186/s13059-016-0997-x

高通量ANI计算:Chirag Jain, Luis M. Rodriguez-R, Adam M. Phillippy, Konstantinos T. Konstantinidis & Srinivas Aluru. (2018). High throughput ANI analysis of 90K prokaryotic genomes reveals clear species boundaries. Nature Communications 9, 5114, doi: https://doi.org/10.1038/s41467-018-07641-9



https://wap.sciencenet.cn/blog-3334560-1252631.html

上一篇:Microbiome:地球上有多大比例的原核生物已经被测序了基因组?
下一篇:Nature:Jeff Dangl团队揭示贪噬菌属在微生物组中维持根的生长
收藏 IP: 59.109.144.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 04:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部