zdf1987的个人博客分享 http://blog.sciencenet.cn/u/zdf1987

博文

构建原核生物基因组进化树?试试EasyCGTree,如此简单!!!【含视频教程】

已有 1887 次阅读 2023-10-18 11:54 |系统分类:论文交流

构建原核生物基因组进化树?试试EasyCGTree,如此简单!!!【含视频教程】

 

引言:2023年10月14日,生物信息学知名期刊《BMC Bioinformatics》上线了题为《EasyCGTree: a pipeline for prokaryotic phylogenomic analysis based on core gene sets》的文章。介绍了一款名为EasyCGTree的软件,可以实现从基因组蛋白质序列到基因组进化树的一步操作,简化了传统的同源基因检索、序列比对、串联等一系列繁琐流程。

软件下载地址:

https://github.com/zdf1987/EasyCGTree4

https://gitee.com/zdf1987/EasyCGTree4

文章链接:http://dx.doi.org/10.1186/s12859-023-05527-2


1.jpg

随着基因组时代的到来,基于基因组进行系统发育分析已经变得越来越普遍。有两种分析策略最为常见,分别被称为SupermatrixSM)和SupertreeST)。SM是将比对好的各个基因序列串联起来形成一条“超级序列”来进行进化树的构建,而ST是将各个基因分别构建基因树(Phylome),然后使用特定的算法将基因树整合成一个进化树。

在原核生物中,SM的建树策略是最为常用的。但是,整个流程涉及软件众多,相关软件的安装、数据的准备、格式处理等操作都需要一定的专业技能和经验。因此,基因组系统发育分析对于初学者来讲,技术难度较高。EasyCGTree便致力于提供一种简单的方法。

 2.jpg

EasyCGTree使用HMMER进行同源基因检索,MUSCLEClustal OMEGA进行序列比对,trimAI进行保守区域筛选,FastTreeIQ-TREE进行进化树的构建;可以实现SMSTconsensus tree(一致性树,SM的另一种形式)三种建树策略。在本文发表之前,EasyCGTree已经在小范围内试用,并被多篇已发表论文引用。与现有具有类似功能的软件autoMLSTbcgTreeGToTreeUBCG相比,EasyCGTree支持WindowsLinux,不需要安装第三方软件(已提前打包配置好),自带bac120ar122rp1rp2等基因集的HMM文件;支持基因集HMMs扩展,并且实现了ST策略建树。只需要安装基本的Perl语言环境,便可以运行EasyCGTree

3.jpg

作者以Paracoccus属为例,构建了多个进化树,并于已发表的bcgTreeUBCG软件的结果进行比较。结果显示,在方法类似的情况下EasyCGTree可以构建与bcgTreeUBCG拓扑结构高度一致的进化树,同时运行效率更高,耗时更短,也更加适合用于海量基因组数据的分析。

4.jpg


EasyCGTree的使用也非常简单。首先安装Perl语言,然后下载软件包和软件提供的HMM数据,解压后即完成安装。

使用方法:

1、准备待分析菌株的CDS氨基酸序列

确保包含序列的文件夹(例如myGenome)EasyCGTree的主目录下(例如Linux“…/Downloads/EasyCGTree”)“/”对于Windows应该是“\”),将工作目录更改为EasyCGTree的工作目录并运行。

假设Windows用户将软件下载到“D:”盘下的“Downloads”文件夹中。

2运行EasyCGTree

注意:EasyCGTree是一个命令行软件,需要在cmd.exe (Windows)Terminal (Linux)中运行。命令行运行的示例如下(在完成每一行时按“Enter”)

5.jpg

Linux用户使用“cd”命令将EasyCGTree的工作目录改为EasyCGTree的工作目录后,可以按照相同的方式运行EasyCGTree

然后,即可获得使用默认参数(bac120基因集,trimAl“strict”严谨度筛选保守区,FastTree构建)构建的Newick格式的进化树(以包含基因组的文件夹的名称命名,例如myGenome.bac120.supermatrix.fasttree.tree)和运行期间生成的文件/文件夹。可以使用FigTree, MEGA, iTOL或其他进化树查看器来显示进化树。

优化建树方法,也很简单:

想使用其他基因集,在最后一行命令添加“ -hmm ar122/rp1/rp2或其他即可(默认bac120)。

运行太慢,想增加线程数,添加“-thread 数字(默认2)。

想使用IQ-TREE进行进化树构建,添加“-tree_app iqtree” (默认fasttree)。

想构建supertree进化树,添加“-tree st“(默认sm)。

想改变trimAl的严谨程度,添加“-trim gappyout/strictplus“(默认strict)。

想修改FastTree/IQ-TREE的参数,可在“tree_app-options.txt”文件中进行。


最后,针对原核生物分类学相关的研究,作者还提供了从数据准备到获得进化树详细的操作视频。

【如何批量下载Type strain基因组数据】 https://www.bilibili.com/video/BV14w41167FR/?share_source=copy_web&vd_source=e5f4fe144d94ec05eb13374f0dd44d7d

【使用EasyCGTree构建原核生物基因组进化树】 https://www.bilibili.com/video/BV1KN411t7pX/?share_source=copy_web&vd_source=e5f4fe144d94ec05eb13374f0dd44d7d

 




https://wap.sciencenet.cn/blog-548406-1406360.html


下一篇:系统发育基因组学软件EasyCGTree 4.2版起-proteome变更为-input
收藏 IP: 221.226.114.*| 热度|

1 刘永红

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 21:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部