最近在进行ac4C-seq数据分析时,从GEO上下载了Cell文章“Acetylation of Cytidine in mRNA Promotes Translation Efficiency”的原始数据,发现GSM2724031这个原始文件的Q30竟然是100%。于是总结下,供大家参考。
1,GEO数据库简介
1,芯片,测序原始数据仓库。基因组,转录组,修饰等,但是不存蛋白质谱和代谢数据
2,发文章一般都要上传原始数据,保证数据的可重复性,真实性
3,大量数据共享,可挖掘发文章:没有数据,挖掘GEO;数据不够,GEO来凑
4,数据质量参差不齐,需要自行甄别
2,Illumina测序仪下机Fastq原始数据格式
3,质量分数Q计算方法
Q=−10 log10(P)
P是碱基识别的错误概率,来自碱基识别算法(base calling algorithm)并依赖于多少信号被捕获。
Q30值一般用百分比展示,表示Q值大于30的碱基比例。例如Q30=85.75%表示这个(或者双端时R1+R2)fastq文件的全部total个碱基中,有total*0.8575个碱基的Q值都大于30。所以Q30是衡量数据质量的一个很重要的标准。Illumina官方以80%为阈值,实际中一般可以做到95%,甚至更高。虽然理论上Q30可以是100%,但是目前还做不到。
4,测序质量分数为什么越往后越差?
Illumina测序技术基于边合成边测序(Sequencing by Synthesis)的原理,利用DNA聚合酶在模板DNA上逐个添加荧光标记的dNTP,从而实现对DNA序列的测定。在测序初期,由于合成反应尚未完全稳定,因此虽然DNA聚合酶的活性较高,但在高质量区域(通常指测序的前1-30个碱基对)内可能会出现一定的波动。随着测序的进行,合成反应逐渐稳定,但随着时间的推移,DNA聚合酶的活性会逐渐降低,导致特异性下降,从而增加了后续测序过程中出错的概率。
在Illumina测序中,随着DNA聚合酶活性的降低,测序错误率也会随之升高,这可能是由于聚合酶保真度降低以及二代测序固有的特点导致的。
5,GEO和SRA的区别
GEO最开始是存储的芯片数据,包括芯片原始文件,处理过的表格等。后来测序出来后,GEO也开始存储测序的数据,再后来由于原始数据越来越多,越来越大,为了区分就又重开了个存储测序原始数据的SRA。上传到GEO的原始fastq也会随后存到SRA里边。所以,对用户来说,区别就是数据上传到SRA时,可以不用上传processed data,而上传到GEO时,必需上传processed data。
GEO数据库的数据结构包括Platform(GPL)、Sample(GSM)、Series(GSE)和Dataset(GDS)。GSE通常指代一个研究项目,GSM是单个样本的数据,而GDS是整理后的数据分析集。
SRA数据库的数据结构包括Studies(ERP/SRP)、Experiments(SRX)、Samples(SRS)和Runs(SRR)。Studies代表研究课题,Experiments代表实验设计,Samples代表样本信息,而Runs代表测序结果集
6,GEO/SRA对原始fastq的处理
原始下机fastq文件在上传GEO/SRA后,工作人员会对其进行处理,将每条read的测序仪相关信息(read name)去掉,替换成诸如1、2、3,或者是SRR123456.1,SRR123456.2这种序列编号(2018年前的可能会保留read name信息)。
7,GEO/SRA原始fastq下载
一般直接使用sratoolkit来下载。命令为:
prefetch -X 200G SRR123456 -o SRR123456
fastq-dump --split-files -F SRR123456
8,GEO/SRA的fastq文件都是原始下机数据吗?
一般是原始下机数据(read长度完全一样),但是也有去接头之后的clean数据(长度不一样)。
我们来看看GSM2724031的原始文件,下载后,转成fastq文件。
发现这个fastq的质量分数全是?,而其他原始数据不存在这个问题,推测GSM2724031样品的原始fastq文件在上传GEO前,fastq里边的质量分数被人为替换了,替换的原因就无从知晓了,也许“这世界就是个巨大的草台班子”。
微生信助力高分文章,用户230000,谷歌学术4600
转载本文请联系原作者获取授权,同时请注明本文来自陈明杰科学网博客。
链接地址:https://wap.sciencenet.cn/blog-707141-1461558.html?mobile=1
收藏