不积小流 , 无以成江海 !分享 http://blog.sciencenet.cn/u/xiongchaoliang

博文

RNA-seq转录本拼接与重构的探讨

已有 6337 次阅读 2014-11-29 23:59 |个人分类:【转录组-mRNA分析】|系统分类:科研笔记

      RNA进行测序一直以来都被认为是一种发现基因的有效方法,而且这种方法还被认为是对编码基因以及非编码基因进行注释的金标准。与以前的方法相比,大规模平行RNA测序方法(massively parallel sequencing of RNA)极大增强了RNA测序技术的处理能力,使我们得以能够对转录组进行测序。

      在本文中即将介绍到的这两种RNA测序方法就能以前所未有的精度对转录组进行分析。Trapnell小组使用的方法是一种名为Cufflinks的软件。这种软件能够随时发现小鼠生肌细胞(myoblast cell)内新出现的转录子,还能在细胞分化时对转录子表达水平进行监测,从而分析基因表达情况和剪接情况。Guttman小组也使用了与Trapnell小组相类似的软件方法,不过他们使用的是另一种名为Scripture的软件。Scripture软件可以对源自三个小鼠细胞系的转录组进行再注释(reannotate),从而对数百个最近新发现的lincRNA(large intergenic noncoding RNA)进行完整的基因模式注释。

      虽然RNA测序技术已经出现了将近20年,但直到最近才开始构建克隆文库。对人类、小鼠以及其它重要模式生物进行全长基因克隆构建的科研项目需要几年的时间才能够完成。但是有了最新的测序技术,我们将不再需要构建克隆文库,可以直接对cDNA片段进行测序。我们现在可以只需要花费几天,仅用以往同类项目科研经费的很少一部分就能够得到一个比较满意的完整的细胞转录组。但是这种新技术也存在一点问题。不用构建克隆,我们就无法知道哪一个“结果(mRNA或蛋白)”来自哪一个转录子。最近已经有人开始通过对已知的或者预测出来的转录子的短RNA序列进行测序的方式来对基因表达和可变剪接进行分析研究。虽然这些研究可以得到很多信息,但是这种方法只能用于分析已知基因和对已知的可变连接区域进行分析。为了充分利用RNA序列数据进行生物学研究,我们还应该能够重建转录子并且还要能够在不借助参考注释基因组信息的情况下对这些转录子的相对丰度进行精确的测量。

      过去我们在利用短RNA序列重建转录子时主要采用了两条策略(图1)。第一条策略是利用ABySS软件从头构建的方法,这样就可以与全长cDNA序列进行比对,从而解决序列注释的问题。这种办法还可以用于发现参考基因组中未收录或者收录不完全的转录子,还可以用于发现那些缺乏参考基因组RNA序列数据物种的转录子。不过这种利用小片段序列从头组装转录子的方法实施起来非常困难,只有丰度很高的转录子才有可能被成功组装。

RNA-Seq reads:短片段RNA序列;

Align reads to genome:与基因组数据比对;

Genome:基因组;

Assemble transcripts de novo:从头组装转录子;

More abundant:高丰度;
Assemble transcripts from spliced alignments:通过与各种剪接方案比对组装转录子;
Align transcripts to genome:将转录子与基因组进行比对;

Less abundant:低丰度;
图1 利用RNA序列数据重建转录子的两种方法。图中左侧示意的先比对再组装的办法是Trapnell小组和Guttman小组采用的方法。该方法首先将短片断RNA序列与基因组序列进行比对,计算出所有可能的剪接方案,然后根据这些剪接方案重建出转录子。图中右侧展示的则是先组装再比对的方法。该方法先从根据RNA片段序列直接头合成出转录子序列,然后再用各种剪接方式对合成的转录子进行剪接,将剪接产物与基因组进行比对,找出内含子和外显子结构,以及各个不同剪接体之间的差异。由于这种从头合成的方法绝大部分情况下只对高丰度转录子管用,因此左侧图中展示的先比对再组装的策略要更为灵敏,不过这一观点尚需进一步论证。图中每个RNA片段都根据其来源转录子被标上了各种颜色。重建转录子中的蛋白编码区被标记成了深色。


第二种策略是先将每一个短片段RNA与基因组进行比对,然后再重建转录子。Trapnell小组和Guttman小组采用的就是这种策略。这两个小组使用的都是TopHat比对软件,通过该软件与基因组进行比对,获得了大量的剪接体。早期的RNA测序只能得到25~32个碱基长度的序列片段,现在我们可以得到75个碱基甚至更长的序列片段,这样就更容易进行序列比对,可以将片段末端固定在不同的外显子当中来判断哪种剪接体才是正确的,这样就不需要借助先前的注释信息了。通过上述这两种方法最终都能得到各种转录子图谱,再通过末端配对信息剔除掉不太可能的选择最终就能得到想要的转录子。

在使用哪种算法方面也是有很大差别的。比如Trapnell小组采用的Cufflinks软件就使用了一种非常严格的算术模型来发现每一个位点所有的可变调控转录子,还可以计算出每一种转录子的优势度。Guttman小组采用的Scripture软件则采用了统计学分段模型(statistical segmentation model)来区分表达位点和实验噪声。需要对Cufflinks软件技术、Scripture软件技术以及利用ABySS软件从头构建的方法进行大规模的测试,才能判断出哪一种方法在哪一种情况下面最为合适、有效。

令人吃惊的是,尽管我们已经利用数以百万计的EST和数千条完整的全长cDNA序列对小鼠基因组进行了详细的注释工作,但是Trapnell小组和Guttman小组还是发现了数千条以前从未发现过的转录子,其中包括已知基因的新型同工型转录子以及全新的编码基因及非编码基因的转录子。

Trapnell小组发现了3724条新的可信度非常高的已知基因的同工型转录子,这些转录子不论在人工注释的基因数据库还是在自动注释的基因数据库中都没有收录过。Trapnell小组还发现他们所发现的每一个转录子经过单独的表达验证之后都能对后续的分析起到重要的作用。实验表明,RNA测序工作能够在很大一个动态范围内准确地反映基因的表达情况,但是之前的实验都只能根据已知的同工型转录子或者预测的同工型转录子来进行判断。根据RNA片段的测序结果直接重建出所有的同工型转录子,然后再根据这些同工型转录子的出处将所有的配对片段进行分类,Trapnell小组用这种方法就能非常准确地判断出每一个基因的每一个同工型转录子的表达水平。他们还发现将每一个RNA片段正确地组装入转录子,能够极大的影响同一基因其它已知同工型转录子的预计表达水平。

如果能够检测每一个同工型转录子的表达水平,那么我们就能够对基因表达的调控机制进行更加深入的研究。这种调控机制可能发生在转录水平,比如形成具有不同转录起始位点的同工型转录子;也可以发生在转录后水平,比如虽然转录起始位点相同,但是内部剪接方式不同的各同工型转录子。Trapnell小组还发现,随着实验的推进,有大量基因的表达都会因为上面提到的这两种调控机制而发生明显的改变。这种能够在如此长时间段里对整个基因组表达调控情况进行检测的能力让我们能够进一步了解到基因组的新功能。比如,在这种水平上的详细数据能够让我们构建出更加合适的基因组调控网络模型,也可以利用这些数据根据每个基因各同工型转录子剪接情况与表达情况之间的关系来改变模型中的某些调控参数,而不用直接改变每一个基因的参数。

Guttman小组也发现了很多新的同工型剪接转录子,不过他们的工作重点主要都放到了各个新发现的转录子身上,尤其是lincRNA。之前利用芯片测序(ChIP-Seq)方法和全基因组瓦片芯片(whole-genome tiling array)方法发现了编码lincRNA的位点,但是由于分辨率不够因此不能构建出准确的模型。Guttman小组在Scripture软件的帮助下对609个已知位点构建出了基因模型,同时还发现了1000多个新的lincRNA,并解析了这些lincRNA的结构。Guttman小组还发现了469个蛋白编码基因的反义转录子。

通过为这些非编码RNA构建基因模型的方式能够让我们更好地开展基因功能研究了。比如Guttman小组就检测了各转录子的保守情况。与以前的观察结果一样,lincRNA要比内含子序列保守得多,但是其保守程度不如蛋白编码序列高。相反,反义转录子并不比编码蛋白的外显子区域的保守水平高,这说明这两种转录子各自具有不同的功能。RNA测序数据还能够展示非编码转录子的表达模式,这些数据表明lincRNA的丰度不仅要比蛋白编码RNA的丰度低,同时其表达水平也较低,而且同蛋白编码RNA相比,lincRNA的表达还具有非常明显的组织特异性。简单来说,如果能够更详细地了解非编码RNA的表达模式,为这些RNA构建出更为准确的基因模型,那么我们就能够更加清楚地知道它们在基因表达调控网络模型以及基因间相互作用模型中的作用,从而对它们的功能有更加深入的了解和认识。

Trapnell小组和Guttman小组发现了如此之多的新转录子这一事实不由得不让我们思考一个问题,为什么我们的注释工作会如此滞后呢?在Trapnell小组的试验中,已知的各种同工型转录子占到了总数的80%以上,这说明这些已知的转录子都来自高表达水平的基因,因此很容易通过以往的cDNA克隆测序方法给发现。Guttman小组的情况也基本相同。还有11%的RNA片段是来自已知基因新发现的同工型转录子,其中62%的片段都能与现有的EST或mRNA相印证,但是它们都还没有作为一个独立的转录子被注释。可能在以往的研究当中也零星的发现过这些低丰度的同工型转录子,可能只是因为它们与已知的转录子比较相似,或者是因为没能得到完整的测序,因此没有进行注释。与这种情况类似,被Guttman小组发现的lincRNA中有43%都可以在以往的小鼠cDNA研究工作中找到踪迹。由于lincRNA具有明显的组织特异性而以往的研究工作往往又只局限于研究某些组织,因此剩余的57%的lincRNA应该都是以前没有发现过的新的转录子。早期大规模RNA测序工作的重点都是针对蛋白编码区域,这可能也是我们注释工作显得落后的原因之一。Trapnell小组和Guttman小组采用的这种RNA测序方法能够明白无误地区分编码转录子和非编码转录子。

Trapnell小组使用的Cufflinks软件、Guttman小组使用的Scripture软件,以及其它一些类似的软件可以极大地改进我们的基因组注释工作,不论是被研究得非常详细的基因组还是缺乏EST和全长mRNA序列信息的基因组都能从中受益。但是利用RNA测序方法来进行基因注释工作也不是完美无缺的。通过Cufflinks软件和Scripture软件被发现的转录子中有大量的转录子都属于已知的转录子,只不过因为覆盖率较低所以都是不完整的转录子。正如用RNA测序方法重建的转录子很难与EST数据相吻合一样,很多低表达水平或者组织特异性表达的转录子也很难通过现有的RNA测序方法被发现。

随着测序技术的不断进步,我们也能够对转录组开展更为深入的测序工作,能够发现更多、更可靠的转录子。不过我们还需要更加先进的方法来区分低丰度的功能性转录子和背景噪声以及各种人为的假象。虽然Cufflinks和Scripture都是非常好的基因组注释工具,但针对不同的基因组(因为每个基因组的特点比如基因的密度、内含子的长度和含量、可变剪接发生的频率高低等等都不尽相同),我们仍然需要各种不同的软件(或算法)来更好地匹配并注释这些基因组。我们还需要看看Cufflinks和 Scripture在处理其它与小鼠基因组完全不同的基因组时表现如何。

大规模并行测序技术已经彻底改变了我们对基因组的研究方法,测序结果的质量也在不断提高,得到的信息量也在爆炸式增长。通过本文的介绍,我们也可以看到RNA测序技术以及转录子发现技术对于基因组注释工作以及基因组转录水平及转录后水平调控机制研究工作的重要意义。如果相应的软件能够及时跟上,那么RNA测序技术将有更大的成就。


原文检索:
Brian J Haas & Michael C Zody. (2010) Advancing RNA-Seq analysis, Nature Biotechnology, 28(5): 421-423.



https://wap.sciencenet.cn/blog-1509670-847320.html

上一篇:如何将多个Bed文件进行合并?
下一篇:Illumina/454/ABI三种测序平台原理的比较
收藏 IP: 159.226.43.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 15:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部