王敬敬
利用本地blast进行特定物种的数量统计
2020-7-10 17:31
阅读:2604

前期利用本地BLAST进行FH-1/去嵌合体代表序列比对,发现CK/FH无显著差异,且FH量低于CK。深入分析,发现代表性序列是97%相似水平的OTU。应尝试100%相似性比对。

 

需要下载原始数据,抽平,比对,得到各个样品的比例,再进行比较。


#参考https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit进行sratoolkit安装

#下载软件包

wget --output-document sratoolkit.tar.gz http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz

#解压

tar -vxzf sratoolkit.tar.gz

#进入bashrc配置路径

vi ~/.bashrc

添加:export PATH=$PATH:/public/home/dell/sratoolkit.2.10.8-centos_linux64/bin#可利用pwd获得路径

#退出,激活

source ~/.bashrc

 

#下载sra文件

prefetch SRR8888

 

#sra文件转换为fastq文件

fastq-dump SRR8888.sra

 

#fastq文件转换为fasta文件

awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR8888.fastq >SRR8888.fasta

 

# 通过搜索>的数量统计fasta文件中的序列数

grep -c '^>' SRR8888.fasta

 

#安装seqkit

conda install seqkit

#利用seqkit进行随机抽取,利用数量进行抽取,可能会有一定的误差

seqkit sample -n 60000 -s 11 SRR8888.fasta -o subsample.fasta

 

#安装BLAST

source ~/miniconda3/bin/activate

conda install blast

#建库

makeblastdb -in subsample.fasta  -dbtype nucl -parse_seqids -out database

#比对

blastn -db database -query FH.fasta -out FHblast -evalue 1e-5 -outfmt 6

 

参考文献:

https://www.jianshu.com/p/c5ad945d30e0

https://www.cnblogs.com/huangyinger/p/10421805.html


转载本文请联系原作者获取授权,同时请注明本文来自王敬敬科学网博客。

链接地址:https://wap.sciencenet.cn/blog-2675068-1241502.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?