不积小流 , 无以成江海 !分享 http://blog.sciencenet.cn/u/xiongchaoliang

博文

tophat的使用及参数介绍

已有 13089 次阅读 2014-11-29 21:33 |个人分类:【技术-软件】|系统分类:科研笔记

TopHat简介:

TopHat是一个基于Bowtie的RNA-Seq数据分析工具。它可以快速确认exon-exon剪切拼接事件。TopHat有Linux和OS X x86_64编译版本,当然也可以使用原代码编译适合自己操作系统的版本。

其上游软件是Bowtie,下游是Cufflinks

理论上,TopHat是针对Illumina Genome Analyzer而设计的软件,它偶尔也能对其它来源的数据进行分析,但不保证成功。它针对75bp以上长度的短序进行了优化。

在使用TopHat前,必须将Bowtie的可执行文件的目录输出到PATH变量中去,例:

export PATH=$PATH:/share/sbin/bowtie

确保TopHat可以运行bowtie, bowtie-inspect以及bowtie-build。

还需要下载安装samtools


TopHat的使用范例:

tophat [options]* <ebwt_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]


TopHat的参数,解释其中一部分:

-o/--output-dir <string>

输出目录。默认值为 “./tophat_out”.

-r/--mate-inner-dist <int>比对时两成对引物间的距离中值。比如说,如果你的插入片段有300bp,而每个引物有50bp,那么r值就应该是200=(300+50*2)/2。没有默认值,如果是末端配对比对时这个值是必须的。
--mate-std-dev <int>末端配对时中间插入片段的长度的标准差,默认值为20bp
-a/--min-anchor-length <int>锚定点长度”anchor length”. TopHat可以判断junction(剪切拼接)。这需要设定锚定点的最短长度,最短不能少于3,默认值为8
-m/--splice-mismatches <int>锚定点范围内错配的个数。默认值为0
-i/--min-intron-length <int>最短的内含子长度。默认值为70
-I/--max-intron-length <int>最长的内含子长度。默认值为500000.
--max-insertion-length <int>比对时插入错配最长的长度,默认值为3.
--max-deletion-length <int>比对时缺失的最长长度,默认值为3.


https://wap.sciencenet.cn/blog-1509670-847277.html

上一篇:转录组测序概述及生物信息学分析流程
下一篇:FastQC检查二代测序原始数据的质量
收藏 IP: 159.226.43.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 12:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部