|
构建原核生物基因组进化树?试试EasyCGTree,如此简单!!!【含视频教程】
引言:2023年10月14日,生物信息学知名期刊《BMC Bioinformatics》上线了题为《EasyCGTree: a pipeline for prokaryotic phylogenomic analysis based on core gene sets》的文章。介绍了一款名为EasyCGTree的软件,可以实现从基因组蛋白质序列到基因组进化树的一步操作,简化了传统的同源基因检索、序列比对、串联等一系列繁琐流程。
软件下载地址:
https://github.com/zdf1987/EasyCGTree4
https://gitee.com/zdf1987/EasyCGTree4
文章链接:http://dx.doi.org/10.1186/s12859-023-05527-2
随着基因组时代的到来,基于基因组进行系统发育分析已经变得越来越普遍。有两种分析策略最为常见,分别被称为Supermatrix(SM)和Supertree(ST)。SM是将比对好的各个基因序列串联起来形成一条“超级序列”来进行进化树的构建,而ST是将各个基因分别构建基因树(Phylome),然后使用特定的算法将基因树整合成一个进化树。
在原核生物中,SM的建树策略是最为常用的。但是,整个流程涉及软件众多,相关软件的安装、数据的准备、格式处理等操作都需要一定的专业技能和经验。因此,基因组系统发育分析对于初学者来讲,技术难度较高。EasyCGTree便致力于提供一种简单的方法。
EasyCGTree使用HMMER进行同源基因检索,MUSCLE和Clustal OMEGA进行序列比对,trimAI进行保守区域筛选,FastTree和IQ-TREE进行进化树的构建;可以实现SM、ST和consensus tree(一致性树,SM的另一种形式)三种建树策略。在本文发表之前,EasyCGTree已经在小范围内试用,并被多篇已发表论文引用。与现有具有类似功能的软件autoMLST、bcgTree、GToTree和UBCG相比,EasyCGTree支持Windows和Linux,不需要安装第三方软件(已提前打包配置好),自带bac120、ar122、rp1和rp2等基因集的HMM文件;支持基因集HMMs扩展,并且实现了ST策略建树。只需要安装基本的Perl语言环境,便可以运行EasyCGTree。
作者以Paracoccus属为例,构建了多个进化树,并于已发表的bcgTree和UBCG软件的结果进行比较。结果显示,在方法类似的情况下EasyCGTree可以构建与bcgTree和UBCG拓扑结构高度一致的进化树,同时运行效率更高,耗时更短,也更加适合用于海量基因组数据的分析。
EasyCGTree的使用也非常简单。首先安装Perl语言,然后下载软件包和软件提供的HMM数据,解压后即完成安装。
使用方法:
1、准备待分析菌株的CDS氨基酸序列
确保包含序列的文件夹(例如myGenome)在EasyCGTree的主目录下(例如Linux的“…/Downloads/EasyCGTree”);“/”对于Windows应该是“\”),将工作目录更改为EasyCGTree的工作目录并运行。
假设Windows用户将软件下载到“D:”盘下的“Downloads”文件夹中。
2、运行EasyCGTree
注意:EasyCGTree是一个命令行软件,需要在cmd.exe (Windows)或Terminal (Linux)中运行。命令行运行的示例如下(在完成每一行时按“Enter”):
Linux用户使用“cd”命令将EasyCGTree的工作目录改为EasyCGTree的工作目录后,可以按照相同的方式运行EasyCGTree。
然后,即可获得使用默认参数(bac120基因集,trimAl的“strict”严谨度筛选保守区,FastTree构建)构建的Newick格式的进化树(以包含基因组的文件夹的名称命名,例如myGenome.bac120.supermatrix.fasttree.tree)和运行期间生成的文件/文件夹。可以使用FigTree, MEGA, iTOL或其他进化树查看器来显示进化树。
优化建树方法,也很简单:
想使用其他基因集,在最后一行命令添加“ -hmm ar122/rp1/rp2或其他”即可(默认bac120)。
运行太慢,想增加线程数,添加“-thread 数字” (默认2)。
想使用IQ-TREE进行进化树构建,添加“-tree_app iqtree” (默认fasttree)。
想构建supertree进化树,添加“-tree st“(默认sm)。
想改变trimAl的严谨程度,添加“-trim gappyout/strictplus“(默认strict)。
想修改FastTree/IQ-TREE的参数,可在“tree_app-options.txt”文件中进行。
最后,针对原核生物分类学相关的研究,作者还提供了从数据准备到获得进化树详细的操作视频。
【如何批量下载Type strain基因组数据】 https://www.bilibili.com/video/BV14w41167FR/?share_source=copy_web&vd_source=e5f4fe144d94ec05eb13374f0dd44d7d
【使用EasyCGTree构建原核生物基因组进化树】 https://www.bilibili.com/video/BV1KN411t7pX/?share_source=copy_web&vd_source=e5f4fe144d94ec05eb13374f0dd44d7d
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 05:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社