R/Bioconductor与转录组数据分析(3)
2018-12-1 19:17
阅读:6051
标签:转录组数据分析
转录组数据结构
1、ArrayExpress,https://www.ebi.ac.uk/arrayexpress/
以这个数据集为例:E-MTAB-4867 ,通常会有如下文件
idf 文件是实验设计描述文件,为txt文本,可以直接打开查看;
sdrf 是样本与实验数据的对应关系描述文件,简而言之,就是每个样品是如何处理的。可以用excel或R读取:
sdrf <- read.table("E-MTAB-4867.sdrf.txt",header = T, sep = "\t")
raw 是原始数据文件,现在一般由委托实验的公司处理,自己如果要处理这类文件,可以参考Bioconductor中的相关内容。
adf 是整列Array设计描述,如果处理过的数据集中没有基因id,就需要用这个文件建立探针号与基因id的对应关系。
Processed data 是处理过的数据,用R读取
proc.data <- read.table("E-MTAB-4867.processed.data.txt",header = T,sep = "\t")
可以看到整个数据集检测的基因数(24603),样品处理组数(135)。
处理过的数据集中已经是基因id,可以直接提取目标基因集了。
在Bioconductor中有处理ArrayExpress的包,但不怎么好用,不如用R直接处理。
转载本文请联系原作者获取授权,同时请注明本文来自陈新科学网博客。
链接地址:https://wap.sciencenet.cn/blog-62701-1149347.html?mobile=1
收藏
当前推荐数:0
推荐到博客首页
网友评论0 条评论