熊朝亮
tophat的使用及参数介绍
2014-11-29 21:33
阅读:13256

TopHat简介:

TopHat是一个基于Bowtie的RNA-Seq数据分析工具。它可以快速确认exon-exon剪切拼接事件。TopHat有Linux和OS X x86_64编译版本,当然也可以使用原代码编译适合自己操作系统的版本。

其上游软件是Bowtie,下游是Cufflinks

理论上,TopHat是针对Illumina Genome Analyzer而设计的软件,它偶尔也能对其它来源的数据进行分析,但不保证成功。它针对75bp以上长度的短序进行了优化。

在使用TopHat前,必须将Bowtie的可执行文件的目录输出到PATH变量中去,例:

export PATH=$PATH:/share/sbin/bowtie

确保TopHat可以运行bowtie, bowtie-inspect以及bowtie-build。

还需要下载安装samtools


TopHat的使用范例:

tophat [options]* <ebwt_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]


TopHat的参数,解释其中一部分:

-o/--output-dir <string>

输出目录。默认值为 “./tophat_out”.

-r/--mate-inner-dist <int>比对时两成对引物间的距离中值。比如说,如果你的插入片段有300bp,而每个引物有50bp,那么r值就应该是200=(300+50*2)/2。没有默认值,如果是末端配对比对时这个值是必须的。
--mate-std-dev <int>末端配对时中间插入片段的长度的标准差,默认值为20bp
-a/--min-anchor-length <int>锚定点长度”anchor length”. TopHat可以判断junction(剪切拼接)。这需要设定锚定点的最短长度,最短不能少于3,默认值为8
-m/--splice-mismatches <int>锚定点范围内错配的个数。默认值为0
-i/--min-intron-length <int>最短的内含子长度。默认值为70
-I/--max-intron-length <int>最长的内含子长度。默认值为500000.
--max-insertion-length <int>比对时插入错配最长的长度,默认值为3.
--max-deletion-length <int>比对时缺失的最长长度,默认值为3.

转载本文请联系原作者获取授权,同时请注明本文来自熊朝亮科学网博客。

链接地址:https://wap.sciencenet.cn/blog-1509670-847277.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?