博文

基因家族收缩与扩张——提取最长转录本序列操作

已有 1542 次阅读 2023-5-16 17:19 |个人分类:linux学习|系统分类:科研笔记

一、获取eggNOG注释信息

1、准备蛋白的fasta格式文件，压缩为.gz格式作为输入文件

gzip -c example.fasta > example.fasta.gz

图片.png

3、用seqkit建立ID和序列长度索引，并导出

seqkit faidx example.fasta -w 0 > example.fasta.fai #-w 0 表示不计空格

4、example.fasta.fai用表格打开，将eggNog_ID-|-length用&连接合并为一个值，

5、在TBtools——sequence Toolkit——Fasta ID Rename,将原ID替换为out.emapper.annotations表格中的eggNog_ID，得到example_eggNog.fa作为输入文件，放在文件夹twelve_spp_proteins/

6、执行CAFE中的python脚本，即可根据长度提取相同功能的最长转录本的蛋白序列

python python_scripts/cafetutorial_longest_iso.py -d twelve_spp_proteins/

二、

1、conda安装packages到定文件夹

conda install -c bioconda eggnog-mapper  --prefix=/home/dell/anaconda/
(注意：pretix前是双短杠）

转载本文请联系原作者获取授权，同时请注明本文来自杨志远科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3434047-1388254.html

上一篇：[转载]泛基因组学习
下一篇：[转载]【链接】估算系统树分歧时间 —— paml.mcmctree,r8s

收藏 IP: 221.11.67.*| 热度|

数据加载中...

返回顶部

扫一扫，分享此博文