kingfisher是一个便捷的下载SRA数据神器,相比NCBI提供的SRA tool kit,还需要AWS或GCP账号且这些账号可能涉及收费,实在方便多了。
该软件的下载和使用:https://github.com/wwood/kingfisher-download
但我们的服务器系统是Cent OS,未安装conda,官方提供的安装方法并不合适。
1. 下载:
git clone https://github.com/wwood/kingfisher-download 失败,只好下载zip压缩包,手动上传到服务器。
2. 解压后,将 bin文件夹路径添加到服务器系统配置文件中:
export PATH=$PWD:$PATH
或者直接在系统配置文件中PATH一行加入
3. source 系统配置文件
4.执行kingfisher -h 报错:
Traceback (most recent call last):
File "/software/kingfisher-download-main/bin/kingfisher", line 16, in <module>
from bird_tool_utils import *
ModuleNotFoundError: No module named 'bird_tool_utils'
5. pip install bird_tool_utilis后执行kingfisher -h 仍报相同的错
6. pip3 install bir_tool_utilis 后,执行kingfisher -h 报新的错:
Traceback (most recent call last):
File "/software/kingfisher-download-main/bin/kingfisher", line 20, in <module>
import kingfisher
File "/software/kingfisher-download-main/bin/../kingfisher/__init__.py", line 10, in <module>
import extern
ModuleNotFoundError: No module named 'extern'
7. pip3 install extern后,执行kingfisher -h 报新的错:
Traceback (most recent call last):
File "/software/kingfisher-download-main/bin/kingfisher", line 20, in <module>
import kingfisher
File "/software/kingfisher-download-main/bin/../kingfisher/__init__.py", line 16, in <module>
from .sra_metadata import *
File "/software/kingfisher-download-main/bin/../kingfisher/sra_metadata.py", line 14, in <module>
import pandas as pd
ModuleNotFoundError: No module named 'pandas'
8. pip3 install pandas后,执行kingfisher -h 不再报错:
...::: Kingfisher v0.0.1-dev :::...
get -> Download and extract sequence data from SRA or ENA
extract -> extract .sra format files
annotate -> annotate runs by their metadata
Use kingfisher <command> -h for command-specific help.
Some commands also have an extended --full-help flag.
经测试,终于可以正常使用了。
使用方法:
1)下载与解压数据:
kingfisher get -r SRRID -m prefetch ena-ftp --download-threads No
kingfisher get -p BioProjectID -m prefetch ena-ftp --download-threads No
2)数据解压(原始数据已事先下载):
kingfisher extract --sra SRRID.sra -f fastq.gz -t No
#-f,指定转换输出的文件格式,支持fastq,fastq.gz,fasta,fasta.gz
#-t,指定线程数
转载本文请联系原作者获取授权,同时请注明本文来自张彩飞科学网博客。
链接地址:https://wap.sciencenet.cn/blog-56870-1335255.html?mobile=1
收藏