mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

再说基因组注释

已有 14828 次阅读 2017-12-26 17:13 |个人分类:文献推荐|系统分类:科研笔记| 小麦, 中国春, 基因组注释, 功能注释


12
27

本期作者:Neal


上次我们提到这个文献 “The state of play in higher eukaryote gene annotation” ,建议大家去看看了解下,不清楚有多少人会看。基因组注释这一块内容99%的人都不会用到,因为注释出的内容绝大数都是正确的。但是一旦已有的注释信息不能满足需求,那就需要去学习了,看过Ms2那篇文章的小伙伴应该还记得,Ms2就不在已有的基因注释里,公布的IWGSCv1.0版本里也没有这个基因。这种情况下,根据已有的信息并不能正确锁定候选基因,课题岂不是进行不下去了。然而,Ms2的研究者们使用自己的一套方法终究还是拿到了。有的时候是情势所迫,不得不去了解一个新的领域。也许就是所说的“没有压力就没有动力”。

废话有点多,言归正传。文章的作者是Jonathan M. MudgeJennifer Harrow。在今天之前我也没听过这俩名字,大概查了一些网上的信息,这两位无疑是人类基因组注释方面的专家。

请点击此处输入图片描述




1 基因注释以及面临的挑战

就像我们的甲骨文,如果我们不理解,那么将是非常大的损失。同样,如果只有基因组序列,而我们却不了解都是干啥的,那么这个基因组的价值将大打折扣。早期的时候,我们只关注编码基因的注释,后面慢慢发展,开始重视可变剪切,假基因,非编码RNA,小RNA和一些调控元件等。所以关于基因的定义也就发生了变化,我们将基因看作是一组具有生物学功能的序列单元



相对来说,人类基因组是迄今为止注释信息最完善的基因组,但是这并不表示人类基因组中就没有盲点存在。前几年的时候我们还在说垃圾DNA,可现在已经很少被提及了。基因组的空间信息研究进展也不慢,以及现在火热的表观基因组学,所以基因组注释领域还有很长的路要走。下图展示了当下基因注释的主要框架。



首先基因注释要明确转录本的结构,内含子和外显子边界,经典的GT-AG规则还是适用于绝大多数情况。其次就是搞清楚转录本的生物学功能,比如是不是编码蛋白的基因,实际上,这一方面应该是功能注释(functional annotation)的范畴。转录本和基因是不对等的,一个基因通过可变剪切的形式会产生多个转录本。转录本实际上是我们注释的主要部分。转录本非常复杂,即使不考虑时空特点,除了编码蛋白的基因,还有假基因,长链非编码RNA,小RNA家族等,还有许多新类型的RNA还未被全面研究。总之,这种复杂性对基因注释来说是一个非常巨大的挑战

2 注释的主要策略

下图就是一个常见的基因注释流程,以及注释过程中所使用的主要策略。很明显,这些策略都需要毛爷爷的支持,所以这就取决于项目的目的,对于一些参考基因组的注释当然是越详细越好,其他的基因组项目可能就是为了回答某一具体的科学问题,也就没有必要花费大量的人力物力搞的面面俱到。比如一个普通的测序项目可能就是明确进化上的科学问题或者寻找哪些基因受到了正向选择,那么使用蛋白编码基因就够了,而假基因、非编码RNA等则可以忽略。


基因组越是对科学界有价值,就越是需要投入更多的资源。因此,人类,小鼠,拟南芥,秀丽隐杆线虫,黑腹果蝇都经历了多年的大规模诠释项目,涉及多个科学研究机构和测序中心。实际上,人类和小鼠的基因组注释资源目前有些内容是重叠的,比如由RefSeq和GENCODE项目创建的基因集。基因组的质量是影响注释目标的一个关键因素。基于一个低质量的基因组是不可能获得一个高质量的基因注释结果的。

3 注释所使用的证据和方法

不管一个注释项目的科学内涵是什么,影响质量的最关键因素是所使用的方法和证据。在转录水平上,使用一代测序获得的cDNA和EST序列要优于使用短读长的二代测序所获得的序列。绝大部分物种是没有这种数据的,虽然二代测序越来越便宜,但对基因注释来讲并不是最优的选择。

上面说的是转录水平的证据,接下来我们说一说蛋白水平的证据。大规模的蛋白水平的证据实际上是非常缺少的,这远远落后于基因组和转录组的研究。早期的研究基于Swiss--Prot数据库获得了一些CDS序列,通过从头的ORF预测也获得了一些编码序列。ORF预测基于密码子频率以及ORF大小。实际上,寻找真正的CDS可以通过计算ORF中同义与非同义替换的比例来实现的。

下面再说说方法。所有的基因组注释都会依赖流程化的计算过程,而对于参考基因组来说,往往还需要手工来校正。手工校正被看作是一项金标准,这也是一个高标准注释项目的核心程序之一。就像我们前面所说的,流程化的计算过程需要三个方面的资源,即转录组,相近物种的基因注释集,以及从头预测。而从头预测在高等真核生物里已经用的非常少了。一些超大型的基因组项目需要自己注释一份基因集以期能够更好的回答科学问题。出于一些实际的原因,有些研究者只是单纯的利用二代测序拼装完成的转录组序列来注释基因组,因为这种方法错误率太高,所以我们并不认同这种做法。

最后说说基于科学共同体的注释。经过复杂的流程之后,仍然需要手工校正一些错误的位点,也就是所谓的具体问题具体分析。这一部分是最耗时耗力的,但又是一个高质量基因集所必须的。现在也有一些软件,比如WebApollo,能够方便研究者共同在线完成这一工作。

4 注释基因集何时能够完成?

目前还看不到完成的那一天。就是转录组水平的证据都还远远不够。现在火热的单细胞测序结果说明,每个细胞都是不同的,而有些转录本只在非常特定的时空条件下短暂出现,所以路还远着呢。近年来兴起的三代测序也说明之前的注释还是远远不够的。 最近刚刚兴起的RNA捕获测序能够获取新的转录本,但目前也只在人类和小鼠中使用,下图展示了一个具体的例子。




5 谈一谈转录本的开头(TSS)和结尾(TES)

转录本的内含子-外显子边界很重要,但转录本的开头和结尾也很重要,这关乎这转录本的完整性。转录本的5'和3'非翻译区起着重要的调控作用。比如一个基因的两个转录本,编码区完全一样,功能却有差异,5'和3'会调控蛋白的翻译效率。

6 说一说目前的一些难点

  • 区分基因和假基因

  • 可变剪切转录本是否编码并产生真正的蛋白

  • 一些位于编码区的转录本并不能产生蛋白,那么它的使命是什么?

  • 注释出的蛋白序列仍然需要蛋白水平上的证据

  • 非编码RNA的注释。这一块的工作千万不要被组学水平上的一些鉴定所迷糊眼界。

  • 基因之外。也即目前认为的基因间隔区,这些区域的生物学功能仍是研究的盲点。

  • 基因组的可用性。获得的高质量基因集也需要建立一个方便的访问和使用接口。

最后总结来说,就是革命尚未成功,同志仍需努力。特别是对我们小麦来说,一切才刚刚开始。我们的观念要及时转变过来,记住我们也是有参考基因组的物种了。看到有些小伙伴还在利用EST找基因,做race,实在很痛心呢。如果现在还是2-3个月才开发一个多态标记,那是需要拉出去打板子的。要及时改变观念,了解新数据,这也许要比你起早贪黑的忙几个月要好。


欢迎关注小麦研究联盟”,了解小麦新进展


投稿、转载、合作以及信息分布等请联系:wheatgenome





https://wap.sciencenet.cn/blog-1094241-1091580.html

上一篇:再析小麦锈病里程碑进展-植物病害流行学角度
下一篇:小麦未知基因的快速克隆方法5—MutChromSeq技术
收藏 IP: 58.213.93.*| 热度|

1 张成岗

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 13:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部