sunpc的个人博客分享 http://blog.sciencenet.cn/u/sunpc

博文

Interproscan的安装与使用

已有 13241 次阅读 2016-6-5 16:15 |个人分类:linux|系统分类:科研笔记| interproscan

  Interproscan是什么?能做什么?怎么做?

  对于前两个问题,给你这个页面,可能会给你一些帮助。http://www.ebi.ac.uk/interpro/about.html

至于怎么做,从我安装失败几次的经验中,我可以给一些建议。

  首先,就是安装软件需要的配置问题。即安装环境

   https://github.com/ebi-pf-team/interproscan/wiki/InstallationRequirements

参照这个页面,将自己linux服务器的环境搭配好。每一个步骤怎么配置,网上的资源很多。如python的版本替换,java的版本更新等。

   其次,就是下载安装了。http://www.ebi.ac.uk/interpro/download.html 安装过程非常简单,解压缩后,就可以了。以前的版本需要配置panther-data-10.0.tar.gz。我刚看最新版本貌似不需要了这个东西了。如果需要,也非常好配置。下载到interproscan中的data中,解压缩后,就可以了。当然,这个软件比较大,下载后,最好使用MD5验证文件下载是否完整。

    最后,是如何运行。https://github.com/ebi-pf-team/interproscan/wiki/HowToRun 人家官网也给出这个部分的教程。

   这些都是官网上给的,非常之简单。我要说的,是一些注意事项。

   1. 跑interproscan的数据可以是核酸也可以是蛋白质,但是命令会有一些区别。

   2. 数据一定要格式化,而且序列中不能出现*号等其他字符。gene的名字不能为空。

   3. 最后一点,因为interproscan的数据库很大,更新特别频繁。建议采用联网的方式运行。这样就出现了一些麻烦。我跑的是全基因组的数据,数据比较多。出现一个问题,就会报错会前功尽弃。还有就是出现断网断电情况,也需要从新跑。经过多次失败后,我总结了一个简单的方法。就是将基因组分割成很多小的文件。这样,即使出现断电断网或者序列出现问题,也不会全部都要跑。还有就是这么多小文件,如果一个一个输入命令运行,费时间费事,还需要去盯着它。我又写了一个多进程的程序,自动运行,可以设定运行进程数目,跑完一个,后边要跑的文件程序,自动填补运行。时刻保持一定进程数目运行。一个好消息,这个软件是支持并行计算的,如果确保数据没问题,网络等其他外在因素也不会发生,直接使用并行计算就可以的。

    基本就是这样了。欢迎提问题,多交流。



https://wap.sciencenet.cn/blog-1325061-982604.html

上一篇:生物信息——kegg分析的kobas软件的安装与使用
下一篇:生物信息绘图之python绘图
收藏 IP: 60.2.249.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-21 08:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部