||
1、格式化数据库
命令:
makeblastdb -in db.fasta -dbtype prot -parse_seqids -out dbname
参数:
-in:待格式化的序列文件
-dbtype:数据库类型,prot或nucl
-parse_seqids:自动解析seqid
-out:数据库名
2、蛋白序列比对蛋白数据库
命令:
blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
-num_threads 8
参数:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-num_descriptions:tabular格式输出结果的条数。-max_target_seqs(outfmt>4用-max_target_seqs控制数据数量)
-num_threads:线程数
3、核酸序列比对核酸数据库
命令:
blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
-num_threads 8
4、核酸序列比对蛋白数据库
命令:
blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10
-num_threads 8
查询序列ID标识 | 比对上的目标序列ID标识 | 序列比对的一致性百分比 | 符合比对的比对区域的长度 | 比对区域的错配数 | 比对区域的gap数目 | 比对区域在查询序列(Query id)上的起始位点 | 比对区域在查询序列(Query id)上的终止位点 | 比对区域在目标序列(Subject id)上的起始位点 | 比对区域在目标序列(Subject id)上的终止位点 | 比对结果的期望值 | 比对结果的bit score值 |
Query_1 | LNAC01000153.1 | 90.629 | 747 | 70 | 0 | 62 | 808 | 2571536 | 2573776 | 0 | 1354 |
一般情况我们看第3、11、12两列,e值越小越可靠。
5.输出对应的scaffold
命令:
blastdbcmd -db name -entry 1 -out name-scaffold
在实际操作中,我比较喜欢以下步骤,较为直观简单的找到blast结果(若不当,请批评指出):
(1)makeblastdb -in db.fasta -dbtype prot -parse_seqids -out dbname
(2)blastn -query seq.txt -out gene+name -db Actata -num_alignments 4 –evalue 1e-5 -num_threads 4 -word_size 11
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-29 12:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社