牛祥娜
BLAST软件输出结果的整理与后加工
2025-6-11 09:00
阅读:97

BLASTBasic Local Alignment Search Tool)是一款由 NCBI(美国国家生物技术信息中心)提供的生物信息学工具,用于比较基因或蛋白质序列。以下是如何在表格中完成,添加表头、过滤identity值、保留唯一匹配等,以outfmt 6 默认输出结果为例。

 

1.添加表头

# 创建一个包含指定字段的表头文件header.txt

echo -e "Query_ID\tRefer_ID\tIdentity(%)\tAlignment_Length\tMismatches\tGap_Openings\tQ_Start\tQ_End\tS_Start\tS_End\tE-value\tBit_Score" > header.tsv

# 将该表头文件与原始的blast比对结果文件data/blastn_nucl_result.tsv合并

cat header.tsv data/blastn_nucl_result.tsv > data/blastn_nucl_result_with_header.tsv

2.过滤identity

awk -F '\t' '$3 >= 70' data/blastn_nucl_result_with_header.tsv > data/filtered_blastn_nucl_result_with_header.tsv

在这个命令中:

-F '\t'指定字段分隔符为制表符,因为outfmt 6格式的blast结果是以制表符分隔的。

'$3 >= 70'表示筛选第三列(identity (%)列)值大于等于70%的行。

blastn_nucl_result_with_header.tsv是输入的blast比对结果文件。

> data/filtered_blastn_nucl_result_with_header.tsv将筛选后的结果输出到当前目录下data文件夹中的filtered_blastn_nucl_result_with_header.tsv文件中。

3.根据Query ID来保留唯一匹配项

awk '!seen[$1]++' data/blastn_nucl_result_with_header.tsv > data/unique_blastn_nucl_result_with_header.tsv

在这个命令中:

!seen[$1]++表示对第一列(假设为Query ID列)进行去重操作,保留每个Query ID第一次出现的行,即保留唯一匹配项。

blastn_nucl_result_with_header.tsv是输入的blast比对结果文件。

> data/unique_blastn_nucl_result_with_header.tsv将去重后的结果输出到当前目录下data文件夹中的unique_blastn_nucl_result_with_header.tsv文件中。

 我们将持续分享微生物组学研究和生信分析相关的专业技能资料。推荐课程请搜索“密码子学院”。课程问题或个性化分析需求,请联系小唯(微信号:winnerbio01)。

转载本文请联系原作者获取授权,同时请注明本文来自牛祥娜科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3447233-1489335.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?