QHbinma的个人博客分享 http://blog.sciencenet.cn/u/QHbinma

博文

[转载]转录组测序设计

已有 6718 次阅读 2019-3-26 12:01 |个人分类:转录组|系统分类:科研笔记|文章来源:转载

转录组测序设计与数据分析

鹰嘴豆种子大小和重量的转录组测序的实验方法学习

转录组定义

转录组是一个或一群细胞中所有RNA分子的集合。指所有RNA(或仅指mRNA),具体取决于具体的实验。包括每个RNA分子的量或浓度。

转录组可以视为蛋白质组(即基因组表达的整组蛋白质)的子集。mRNA的水平与它们编码的蛋白质的表达水平并不成正比,mRNA翻译成蛋白质分子的数量高度依赖于mRNA序列的翻译起始特征,翻译起始序列的能力是募集核糖体用于蛋白质翻译的关键决定因素。

RNA-Seq

       RNA-Seq是指高通量测序方法与计算方法的结合,用于捕获和定量RNA提取物中存在的转录本。

RNA-Seq可用于鉴定基因组内的基因,鉴定哪些基因在特定时间点是活跃的,读取计数并且精确模拟相对基因表达水平。 RNA-Seq方法不断改进,主要是通过开发DNA测序技术来提高通量,准确度和读取长度。


1 表型分析和实验设计

首先,观察和统计表型数据,包括直接观察的表型性状(宏观和微观),以及各种生理生化等表型参数。基于表型观察结果,描述转录组实验设计方案,即选取什么品种哪些时期什么部位的组织样品进行转录组测序,以及对照和生物学重复如何设置等。

2 转录组数据统计分析

转录组数据的统计分析通常包括两部分,是测序数据的统计,如高质量reads、唯一比对reads、与参考基因组比对情况(总比对reads和比对效率等);是转录本总体表达情况,包括各个样品中表达的基因转录本数目,以及各样品中不同表达丰度的基因或转录本的比例

3 转录组数据整体分析

基于转录组数据统计,开始真正意义上转录组数据挖掘。首先,从整体上对转录组数据进行分析,即基于所有样品所有基因的表达情况,对样品间的关系做总的分类和观察。常见的分析方法有PCA、层次聚类等。从这个分析结果,可以讨论样品的分群、样品间关系的远和近

4 差异基因整体分析

接下来都是对差异基因的分析,也是转录组文章的主体部分。首先,差异基因的整体分析。根据实验设计,从不同维度看各差异分组的差异基因数目、上下调情况的整体趋势,通常用韦恩图或者柱状图呈现分析结果。本例中,分别从两个材料发育过程(柱状图)和单个材料不同发育时期(韦恩图)的比较看差异基因数目趋势及上下调情况。

5 两个品种差异基因分析

接下来,对差异基因的功能进行整体评估,通常通过GO富集和代谢通路富集来实现。首先从富集结果中筛选关键GO term和代谢通路,可直接选择富集靠前的,也可选择前人文献报道的与关注性状密切相关的基因或通路;然后具体分析这些GO term和代谢通路中基因表达变化情况。在这里,重点是一定要把基因和通路紧密与表型关联,获得解析性状的分子理论。本例运用了经典的GO富集分析和MapMan通路分析。

6.1 不同发育时期差异基因表达聚类分析

本例方案设计是研究种子发育过程,因此通过对时间序列样品的差异基因进行表达聚类分析K-means或层次聚类),获得不同表达模式的cluster,鉴定各发育时间点特异上或下调的cluster或关键基因,然后对各cluster或关键基因进行功能注释,以解释表型性状。通常会筛选到一些或几个关键cluster和基因,这是下一步分析的重点。

6.2 不同发育时期差异基因共表达网络分析(WGCNA)

除表达聚类分析外,基因共表达分析也是一种常见分析,尤其适用于复杂的转录组数据。首先对所有差异基因(上千个基因)进行WGCNA鉴定到表达模式类似的基因模块(十几或者几十个模块),然后基于模块和样品或表型关联分析筛选关键几个模块,最后分析模块内部基因的关系筛选关键基因几个基因)。从该分析过程可以看到, WGCNA分析可以从上千个差异基因中一步步筛选到与表型密切相关的几个关键基因。与表达聚类分析类似,我们同样需要对WGCNA的关键模块和基因进行功能分析(如GO注释和富集)

7.1 关键基因分析-激素相关基因

植物激素部分,我们通常重点关注激素生物合成和信号转导通路相关两大类基因首先通过层次聚类分析这些基因的表达模式,进而对这些基因进行分类和筛选。以本例来说,可筛选在种子发育早期、中期和晚期发挥主要调控作用的激素相关基因。对于筛选的关键基因,可进一步进行蛋白互作网络分析,进而解析植物激素调控表型的分子机制。

7.2 关键基因分析-转录因子

转录因子是转录组数据中通常会重点分析的一类基因。我们基于上述的差异基因分析得到几类重点转录因子家族。首先通过转录因子注释鉴定相关家族成员,然后通过层次聚类分析它们的表达模式,对这些基因进行分类和筛选。以本例来说,可筛选在种子发育早期、中期和晚期发挥主要调控作用的关键转录因子,然后通过转录因子结合motif的富集分析筛选它们的靶基因,绘制转录因子和靶基因的调控网络,最后结合靶基因的功能分析解析关键转录因子调控表型的分子机制。


参考序列比对--将Clean Reads与参考基因组进行比对,获取在参考基因组上的位置信息,定位区域分为Exon(外显子)、Intron(内含子)和Intergenic(基因间区)。评估所选参考基因组组装是否能满足信息分析的需求。

差异表达基因GO注释分类统计图--直观的反映出在生物过程(biological process)、细胞组分(cellular component)和分子功能(molecular function),所有基因和差异基因注释GO term的个数分布。可深入挖掘差异基因的功能及所在的信号通路,筛选关注差异基因注释情况。

参考文献:

Garg R , Singh V K , Rajkumar M S , et al. Global transcriptome and co-expression network analyses reveal cultivar-specific molecular signatures associated with seed development and seed size/weight determination in chickpea[J]. The Plant Journal, 2017.

https://doi.org/10.1111/tpj.13621




https://wap.sciencenet.cn/blog-3395691-1169704.html

上一篇:[转载]外显子/内含子/mRNA/CDS/ORF的区别与联系
下一篇:RPKM和FPKM值衡量基因表达量
收藏 IP: 124.119.50.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 21:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部