熊朝亮
FASTQ文件各行代表的意义详解
2014-11-29 22:47
阅读:6906

FASTQ文件格式最初是被桑格中心开发的用来储存测序序列及其质量的一种文件格式。

现在被Illmina来储存测序仪产生的测序数据。

FASTQ文件格式包括四行:例如
@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

其中第一行以@开头,后面是readsID以及其他信息,例如上例中 HWUSI-EAS100R代表Illmina设备名称;

6代表flowcell中的第六个lane73代表第六个lane中的第73tile941:1973代表该read在该tile中的xy坐标信息;

#0,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的reads

/1代表paired end中的前一个read

补充说明:Illmina测序仪一个flowcell中包含8lane每个lane可以测一个样本或多样本的混合物,

其中一个lane包含2列,每一列又包含60tile,每一个tile又会种下不同的cluster,如下图所示。

 

第二行为read的序列,不用多说!
紧接着下面两行代表该read的质量。
第三行以“+”开头,跟随着该read的名称(一般于@后面的内容相同),但有时可以省略,但“+”一定不能省。

第四行代表reads的质量。这一行可以详细说一下!

Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG

那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。

起初sanger中心用Phred quality score来衡量该read中每个碱基的质量,既-10lgP ,其中P代表该碱基被测序错误的概率,

如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,

则在第四行中该碱基对应的质量代表值即为“?”,ASCii参考如下。

一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I(40+33)。

以上是sanger中心采用记录read测序质量的方法,Illumina起初没有完全依照sanger中心的方法来定义测序质量,

而是把P换成了p/(1-p). 其他完全按照sanger的定义来做。

但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。

因此,Illumina有更换了好几种版本,从1.3版本升级到1.5版本再到1.8,最后完全采用sanger中的规则来做。

因此,现在Illumina给出的测序质量值完全可以参考刚说的sanger方法。
 

PS: 各种版本的质量怎么定,至今闹不清楚。。。

 

PS: 各种版本的质量怎么定,至今闹不清楚。。。

转载本文请联系原作者获取授权,同时请注明本文来自熊朝亮科学网博客。

链接地址:https://wap.sciencenet.cn/blog-1509670-847299.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?