yzy2020的个人博客分享 http://blog.sciencenet.cn/u/yzy2020 技术体现的是术,可以通过多次练习掌握,不要迷恋术,idea是道,需要通过文献加强训练。总之,孰能生巧!

博文

[转载]基因家族收缩和扩张分析

已有 1159 次阅读 2023-5-18 17:38 |个人分类:linux学习|系统分类:科研笔记|文章来源:转载

一、分析流程

1、将fasta蛋白序列进行eggNOG注释,并提取最长转录本,去除少于30个氨基酸的蛋白序列,未成功注释序列去除,去除可变剪切和冗余基因

2、建立BLAST数据库,使用blastp进行 all-by-all 的比对

3、使用MCL基于blastp结果进行聚类,基因序列相似的通常是一个基因家族

4、paml-mcmctree推断物种分化时间(由于r8s无法正常使用)

5、解析MCL的输出结果,用作CAFE的输入,推断基因家族收缩和扩张

二、

1、用paml-mcmctree估算分歧时间,蛋白数据——用codeml模型,

准备三个输入文件:

1.1 input.tre - 带有校准点的有根树文件

#cat input.tre

5 1
((((A,B),C),D)'>0.23<0.26',E);
  • 文件内容包含两行:第一行表述树中有n个物种,共计1个树,两个数值之间用空格分割;第二行则是Newick格式树信息。

  • 其中第二行包含有校准点信息。校准点信息一般指95%HPD(Highest Posterior Density)对应的置信区间;校准点单位是100MYA(软件说明文档中使用该单位,也推荐使用该单位,若使用其它单位,后续配置文件中的相关参数也需要对应修改)。

  • 此外,Newick格式的树尾部一定要有分号,没有的话程序可能不能正常运行。

1.2 input.phy - 多序列比对文件(phylip格式)



1.3 mcmctree.ctl - mcmctree程序的配置文件,(程序自带,只需适当调整几个参数即可)


三、MrBayes建树

1、#创建环境并安装mrbayes以及相关依赖包
conda create -n mb mrbayes=3.2.7a

2、 To activate this environment, use
#
#     $ conda activate mb
#
3、 To deactivate an active environment, use
#
#     $ conda deactivate

参考安装 https://www.jianshu.com/p/bd17d869a82c

官网 http://nbisweden.github.io/MrBayes/manual.html



https://wap.sciencenet.cn/blog-3434047-1388519.html

上一篇:[转载]eggNOG数据库相关文件理解
下一篇:[转载]orthofinder构建单拷贝基因发育树——相关命令参数
收藏 IP: 221.11.67.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 01:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部