博文

[转载]基因家族收缩和扩张分析

已有 1159 次阅读 2023-5-18 17:38 |个人分类:linux学习|系统分类:科研笔记|文章来源:转载

一、分析流程

1、将fasta蛋白序列进行eggNOG注释，并提取最长转录本，去除少于30个氨基酸的蛋白序列，未成功注释序列去除，去除可变剪切和冗余基因

2、建立BLAST数据库，使用blastp进行 all-by-all 的比对

3、使用MCL基于blastp结果进行聚类，基因序列相似的通常是一个基因家族

4、paml-mcmctree推断物种分化时间（由于r8s无法正常使用）

5、解析MCL的输出结果，用作CAFE的输入，推断基因家族收缩和扩张

二、

1、用paml-mcmctree估算分歧时间，蛋白数据——用codeml模型，

准备三个输入文件：

#cat input.tre

5 1
((((A,B),C),D)'>0.23<0.26',E);

文件内容包含两行：第一行表述树中有n个物种，共计1个树，两个数值之间用空格分割；第二行则是Newick格式树信息。
其中第二行包含有校准点信息。校准点信息一般指95%HPD（Highest Posterior Density）对应的置信区间；校准点单位是100MYA（软件说明文档中使用该单位，也推荐使用该单位，若使用其它单位，后续配置文件中的相关参数也需要对应修改）。
此外，Newick格式的树尾部一定要有分号，没有的话程序可能不能正常运行。

1.2 input.phy - 多序列比对文件（phylip格式）

1.3 mcmctree.ctl - mcmctree程序的配置文件，（程序自带，只需适当调整几个参数即可）

三、MrBayes建树

1、#创建环境并安装mrbayes以及相关依赖包
conda create -n mb mrbayes=3.2.7a

2、 To activate this environment, use
#
# $ conda activate mb
#
3、 To deactivate an active environment, use
#
# $ conda deactivate

参考安装 https://www.jianshu.com/p/bd17d869a82c

官网 http://nbisweden.github.io/MrBayes/manual.html

转载本文请联系原作者获取授权，同时请注明本文来自杨志远科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3434047-1388519.html

上一篇：[转载]eggNOG数据库相关文件理解
下一篇：[转载]orthofinder构建单拷贝基因发育树——相关命令参数

收藏 IP: 221.11.67.*| 热度|

数据加载中...

返回顶部

扫一扫，分享此博文