michael0214的个人博客分享 http://blog.sciencenet.cn/u/michael0214

博文

使用Aspera高速下载SRA/ENA测序数据

已有 15376 次阅读 2016-12-27 16:26 |系统分类:科研笔记

在做基因组学数据分析,往往需要从NCBI/sra 或者EBI/ENA下载高通量的测序数据。通常的ftp下载(或者wget),或者sratoolkit下载往往耗时太长,这时一种大数据下载神器Aspeara就能够大显神通了。Aspera的最简单使用是通过网页插件形式(像Firefox, IE应该都支持,但是不支持Chrome),安装之后即可直接在要下载的页面中点击aspera格式数据(如:http://www.ebi.ac.uk/ena/data/view/PRJEB9450)即可启动下载(类似迅雷)。


当我们登录到自己的服务器终端里面的时候,可能更希望在终端里直接下载数据,而不是先把数据下载到自己的硬盘里,再上传到服务器,这种情况下带有窗口界面的Aspera Connect就无法使用了吗?

当然可以,Aspera Connect安装包里内置了Aspera的命令行工具,这里对其安装和使用方法简要介绍一下:


安装


首先,到aspera网站(http://downloads.asperasoft.com/en/downloads/8?list)下载你的操作系统对应的aspera connect。不需要root或者sudo权限,直接安装之:

$ sh aspera-connect-2.4.7.37118-linux-64.sh


安装好以后,会在HOME目录下(对非root用户,会在自己文件夹的根目录)新建一个叫.aspera的目录,有三个文件比较重要:

一个是ascp的可执行文件 (可以该路径加入环境变量.bash_profile,或者将ascp拷贝至已有环境变量路径:如/bin/,~/bin/等,这样即可在任何位置直接执行命令):

~/.aspera/connect/bin/ascp


另一个ascp的密钥文件(有时putty可能不能使用,这时可选用asperaweb_id_dsa.openssh):

~/.aspera/connect/etc/asperaweb_id_dsa.putty


注意在使用时要给出该文件的绝对路径名,不然会报错(Key Passphrase).另一种小技巧是可以在命令行或.profile中设置ASPERA_SCP_PASS这个环境变量(引用时直接用$ASPERA_SCP_PASS):

export ASPERA_SCP_PASS=/To Path/asperaweb_id_dsa.openssh


第三个文件是aspera-license,同样建议将其路径加入环境变量.bash_profile或者拷贝至已有环境变量路径:如/bin/,~/bin/等

~/.aspera/connect/etc/aspera-license



使用


执行以下两条命令(注意最后要加点号“./”,表示当前目录)

从EBI下载:

$ ascp -i ~/asperaweb_id_dsa.putty era-fasp@fasp.sra.ebi.ac.uk:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff ./


或者(在已经设置ASPERA_SCP_PASS情况下)

$ ascp -i $ASPERA_SCP_PASS era-fasp@fasp.sra.ebi.ac.uk:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff ./


从NCBI下载:

$ ascp -i ~/asperaweb_id_dsa.putty anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/litesra/SRR/SRR096/SRR096072/SRR096072.lite.sra ./

这个时候的速度相比于wget,应该已经很快了,大约能达到9Mb/s以上,如果还嫌慢,可以在-i 参数的前面添加几项设置,像这样:

$ ascp -QT -l 100M -i ~/asperaweb_id_dsa.putty era-fasp@fasp.sra.ebi.ac.uk:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff ./

这样可以将速度提高到20Mb/s左右,偶尔能达到100Mb/s。


ascp下载地址的获取


以EBI上的SRR346368这套数据为例。首先到EBI页面里,找到你想要下载的文件,将指针移到这个文件的”ftp”这一列,即可看到其ftp地址,例如: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz,

然后呢:将 ftp://ftp.sra.ebi.ac.uk 换成 era-fasp@fasp.sra.ebi.ac.uk即可:

$ ascp -i ~/asperaweb_id_dsa.putty era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz ./

NCBI的SRA数据库也是同样的方法,即可获取其ascp下载地址.


相关链接:

http://www.chenlianfu.com/?p=2319

http://boyun.sh.cn/bio/?p=1933

https://www.plob.org/article/3013.html

https://www.biostars.org/p/93482/  




https://wap.sciencenet.cn/blog-689440-1023672.html

上一篇:非root用户在linux服务器安装python package
下一篇:Conda - 多平台软件管理平台
收藏 IP: 141.5.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 02:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部