陈新
R/Bioconductor与转录组数据分析(3)
2018-12-1 19:17
阅读:5511
标签:转录组数据分析

转录组数据结构

1、ArrayExpress,https://www.ebi.ac.uk/arrayexpress/

以这个数据集为例:E-MTAB-4867 ,通常会有如下文件

屏幕快照 2018-12-01 下午6.01.41.png

idf 文件是实验设计描述文件,为txt文本,可以直接打开查看;

sdrf 是样本与实验数据的对应关系描述文件,简而言之,就是每个样品是如何处理的。可以用excel或R读取:

sdrf <- read.table("E-MTAB-4867.sdrf.txt",header = T, sep = "\t")

raw 是原始数据文件,现在一般由委托实验的公司处理,自己如果要处理这类文件,可以参考Bioconductor中的相关内容。

adf 是整列Array设计描述,如果处理过的数据集中没有基因id,就需要用这个文件建立探针号与基因id的对应关系。

Processed data 是处理过的数据,用R读取

proc.data <- read.table("E-MTAB-4867.processed.data.txt",header = T,sep = "\t")

屏幕快照 2018-12-01 下午7.09.28.png

可以看到整个数据集检测的基因数(24603),样品处理组数(135)。

处理过的数据集中已经是基因id,可以直接提取目标基因集了。


在Bioconductor中有处理ArrayExpress的包,但不怎么好用,不如用R直接处理。

转载本文请联系原作者获取授权,同时请注明本文来自陈新科学网博客。

链接地址:https://wap.sciencenet.cn/blog-62701-1149347.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?