博文

【脚本】从gbk文件中提取蛋白质序列以及注释信息

已有 850 次阅读 2025-4-14 09:10 |系统分类:科研笔记

该脚本已上线密码子学院平台，链接：【脚本】从gbk文件中提取蛋白质序列以及注释信息

上周给大家分享了【脚本】：批量下载fasta文件和gbk文件。今天接着给小伙伴们分享很实用的脚本。当我们下载大量的gbk文件时，我们可以从gbk文件中提取蛋白质序列，CDS序列，tRNA以及rRNA序列，以便于下载对这些序列做进一步的分析，如进行找同源单拷贝基因，基于16S rRNA构建进化树等等。这次小编分享的脚本是从gbk文件中，提取蛋白质以及蛋白质对应的注释信息。

脚本运行环境

安装python解释器：安装教程
安装biopython模块

# 使用pip安装 pip install biopython # 使用conda安装 conda install -c bioconda biopython

查看脚本参数

python gbk_extea_protein.py -h

实战演练

# 只提取蛋白质序列和蛋白质ID python gbk_extea_protein.py -g AE009952.gbk -a F -o AE009952.fna # 提取蛋白质序列以及序列的注释信息 python gbk_extea_protein.py -g AE009952.gbk -a T -o AE009952.faa

结果展示

注意事项

01 脚本需要依赖于Biopython模块，请提前安装，否则脚本无法运行。

02 对于基因组较大的真核生物，如人基因组，gbk文件有多个染色体组成，不包含蛋白序列文件，这样的gbk文件无法使用脚本提取蛋白质序列。

03 有些gbk文件，作者在上传gbk文件时，没有公开蛋白质序列以及蛋白质注释信息，这样的gbk文件无法使用脚本提取蛋白质序列。

转载本文请联系原作者获取授权，同时请注明本文来自牛祥娜科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3447233-1481905.html

上一篇：知识小卡片 | 使用 patchwork 包进行图形组合
下一篇：知识小卡片 | 三代测序常用技术

收藏 IP: 183.194.129.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

牛祥娜

扫一扫，分享此博文

NiuXiangna的个人博客分享 http://blog.sciencenet.cn/u/NiuXiangna

博文

【脚本】从gbk文件中提取蛋白质序列以及注释信息

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

牛祥娜

全部作者的其他最新博文

全部精选博文导读

NiuXiangna的个人博客分享 http://blog.sciencenet.cn/u/NiuXiangna

博文

【脚本】从gbk文件中提取蛋白质序列以及注释信息

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

牛祥娜

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)