|||
一、分析流程
1、将fasta蛋白序列进行eggNOG注释,并提取最长转录本,去除少于30个氨基酸的蛋白序列,未成功注释序列去除,去除可变剪切和冗余基因
2、建立BLAST数据库,使用blastp进行 all-by-all 的比对
3、使用MCL基于blastp结果进行聚类,基因序列相似的通常是一个基因家族
4、paml-mcmctree推断物种分化时间(由于r8s无法正常使用)
5、解析MCL的输出结果,用作CAFE的输入,推断基因家族收缩和扩张
二、
1、用paml-mcmctree估算分歧时间,蛋白数据——用codeml模型,
准备三个输入文件:
#cat input.tre5 1 |
文件内容包含两行:第一行表述树中有n个物种,共计1个树,两个数值之间用空格分割;第二行则是Newick格式树信息。
其中第二行包含有校准点信息。校准点信息一般指95%HPD(Highest Posterior Density)对应的置信区间;校准点单位是100MYA(软件说明文档中使用该单位,也推荐使用该单位,若使用其它单位,后续配置文件中的相关参数也需要对应修改)。
此外,Newick格式的树尾部一定要有分号,没有的话程序可能不能正常运行。
1.2 input.phy - 多序列比对文件(phylip格式)
1.3 mcmctree.ctl - mcmctree程序的配置文件,(程序自带,只需适当调整几个参数即可)
三、MrBayes建树
1、#创建环境并安装mrbayes以及相关依赖包 conda create -n mb mrbayes=3.2.7a
2、 To activate this environment, use
#
# $ conda activate mb
#
3、 To deactivate an active environment, use
#
# $ conda deactivate
参考安装 https://www.jianshu.com/p/bd17d869a82c
官网 http://nbisweden.github.io/MrBayes/manual.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-17 01:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社