NiuXiangna的个人博客分享 http://blog.sciencenet.cn/u/NiuXiangna

博文

BLAST软件输出结果的整理与后加工

已有 67 次阅读 2025-6-11 09:00 |系统分类:科研笔记

BLASTBasic Local Alignment Search Tool)是一款由 NCBI(美国国家生物技术信息中心)提供的生物信息学工具,用于比较基因或蛋白质序列。以下是如何在表格中完成,添加表头、过滤identity值、保留唯一匹配等,以outfmt 6 默认输出结果为例。

 

1.添加表头

# 创建一个包含指定字段的表头文件header.txt

echo -e "Query_ID\tRefer_ID\tIdentity(%)\tAlignment_Length\tMismatches\tGap_Openings\tQ_Start\tQ_End\tS_Start\tS_End\tE-value\tBit_Score" > header.tsv

# 将该表头文件与原始的blast比对结果文件data/blastn_nucl_result.tsv合并

cat header.tsv data/blastn_nucl_result.tsv > data/blastn_nucl_result_with_header.tsv

2.过滤identity

awk -F '\t' '$3 >= 70' data/blastn_nucl_result_with_header.tsv > data/filtered_blastn_nucl_result_with_header.tsv

在这个命令中:

-F '\t'指定字段分隔符为制表符,因为outfmt 6格式的blast结果是以制表符分隔的。

'$3 >= 70'表示筛选第三列(identity (%)列)值大于等于70%的行。

blastn_nucl_result_with_header.tsv是输入的blast比对结果文件。

> data/filtered_blastn_nucl_result_with_header.tsv将筛选后的结果输出到当前目录下data文件夹中的filtered_blastn_nucl_result_with_header.tsv文件中。

3.根据Query ID来保留唯一匹配项

awk '!seen[$1]++' data/blastn_nucl_result_with_header.tsv > data/unique_blastn_nucl_result_with_header.tsv

在这个命令中:

!seen[$1]++表示对第一列(假设为Query ID列)进行去重操作,保留每个Query ID第一次出现的行,即保留唯一匹配项。

blastn_nucl_result_with_header.tsv是输入的blast比对结果文件。

> data/unique_blastn_nucl_result_with_header.tsv将去重后的结果输出到当前目录下data文件夹中的unique_blastn_nucl_result_with_header.tsv文件中。

 我们将持续分享微生物组学研究和生信分析相关的专业技能资料。推荐课程请搜索“密码子学院”。课程问题或个性化分析需求,请联系小唯(微信号:winnerbio01)。



https://wap.sciencenet.cn/blog-3447233-1489335.html

上一篇:BLAST比对结果的输出方式和结果解读
下一篇:BLAST软件自定义输出表格样式
收藏 IP: 183.193.236.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-6-13 09:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部