博文

遗世独立——那些“无家可归”的基因，那些精彩传奇的“孤儿们

已有 3405 次阅读 2016-12-7 17:25 |系统分类:科普集锦

[为译言保存]

俗话说：“没妈的孩子像根草。” 由于与生俱来的违和感，孤儿不得不付出比常人更多的努力去与命运抗争，来融入这个世界。而其中的佼佼者，从亚里士多德，孔子到乔布斯，往往改变了这个世界。

可谁又能想到我们体内的DNA就好像一个弃婴收容站？当生物学家给基因组测序后，他们发现几乎每个物种都有多达三分之一的基因似乎无法找到它们的父母，或者换句话说，这些基因组成了一个又一个没有子女的小家庭。而且这些“孤儿”基因往往是基因中的佼佼者，有着很关键的作用，有的甚至在人脑的进化中扮演举足轻重的角色。

知道了它们是谁之后，我们往往要接着问它们从哪来？无父无母，莫非这些基因是从石头缝里蹦出来的？理性告诉我们这是不可能的。科学家们曾认为只要我们研究更多的基因，我们就能找到现在这些小家庭中遗失的成员。但到目前为止，我们并没有找到，而且实际的情况恰恰相反。

自打人们发现有基因起，生物学家就一直在思考基因的起源。现在的看法是，在洪荒的原始生命中，最初的基因是像女娲甩泥巴造人那样给随机“甩”出来的。而且我们要知道，基因一开始并不是DNA，而是诞生在一片充满RNA的世界里。所以在那个时候，基因并不仅仅是一张指导如何合成高效催化剂——酶的图纸，它们自己就是酶本身。如果当时正好随机产生了一些能让原始生命更高，更快，更强的RNA基因的话（这是很可能的），那么接下来的自然选择过程将会让一切步入进化的正轨。

斗转星移，随着生命不断的进化，情况也变得越来越复杂。 RNA基因变成了DNA基因，而DNA基因仅仅是用来指导蛋白质（酶只是其中一种）的合成的。在合成蛋白质之前，DNA必须先生成一个与自己几乎一摸一样的RNA拷贝。这个过程我们称之为“DNA转换”。实际上机理很简单，就是在基因编译蛋白质的字节之前加上一小段额外的字节，内容大意是“请把我复制粘贴成RNA”。之后还没完，转换后的RNA必须被送进所谓的“蛋白质制造厂”。这个工厂的复杂程度不亚于任何一个现代化工厂，有着极其繁琐的“工序”，像“请输出我”， “请从这个字节开始生产蛋白质”，“错误！零件不合格，请重试”等等，而且这些过程是全自动的。

这就使得由随机突变导致无效字节插入新基因几乎成为不可能。正如法国科学家弗朗索瓦·雅各布三十五年前的著名论断中说的那样：”由一个一个氨基酸从头开始，随机组装成一个有用的蛋白质的概率在事实上只能是零。“

于是人们在上世纪七十年代引入另一个假说。这个假说认为意外产生的基因的额外拷贝会使得这个基因衍生出一个新的家族，就好像动物界中常见的那样随着一代又一代的繁衍，开枝散叶成一个由许多种组成的大家族。每个基因确实都有可能在不经意间被额外复制（盗版？）。多数盗版拷贝旋即又丢失了，但也有些幸运儿得以和正版基因一起行使职能，更有甚者居然能产业升级，发展出全新的功能。

就拿光敏色素视蛋白来说吧。我们眼球里这些形形色色的视蛋白并不只是在智人这样一个小圈子里头互相称兄道弟，从水母到昆虫，视蛋白家的表叔数不清。动物界中已发现的数以千计的视蛋白基因都是因为意外的基因复制而进化的，它们共同的祖先可以上溯到七亿年前（家族树见下图）。

大多数的基因都可以被划到几大类家族中，而且每个家族都有数百万年悠久的历史。但当十五年前酵母基因组被测序之后，情况发生了改变。科学家发现有多大三分之一的酵母基因不能被划到已知的家族中。于是，”孤儿基因“ （orphans, 更科技一点的名字叫做ORFans）这一名称就被用在这些特立独行的，非主流的，姥姥不疼舅舅不爱的基因们身上了。

”如果你发现了一个基因，但是却找不到它的近亲，这事就有点蹊跷了。“ 宾州大学研究复杂性状的肯恩·魏斯（Ken Weiss）质疑道。有人回应说这些孤儿基因实际上相当于基因中的活化石，就像腔棘鱼那样，是某个古老家族的最后幸存者。另外一些人则认为这些基因没什么特别的，它们也有自己的家族，只是我们尚未发现罢了。毕竟，全基因组测序才刚上路哩。

层出不穷的孤儿基因

但是随着近些年越来越多的物种基因组得到测序，说好的基因家族大团圆却一再被证明是徒劳的妄想。孤儿基因从各种生命中不断地被发现，从蚊子到人类，从蛔虫到耗子，而且这个数目仍在增加。

谦虚地说，关于孤儿基因的研究现在尚处于起步阶段，我们对绝大多数孤儿基因的认识十分有限。而那些我们已经知道的也无章可循：它们有的是用来修复和组织DNA的，有的是调控其他基因的活性的。孤儿基因flightin指导编码一个翅肌蛋白，是进化出来帮助昆虫飞行的。在最近发表的一份研究中，芝加哥大学的Manyuan Long及其小组发现果蝇进化出了两个新的孤儿基因来辅助觅食。

而在珊瑚，水母和珊瑚虫中，孤儿基因指导放射状蛰刺细胞发育成精巧的充满毒液的喷射装置用以迷晕猎物。淡水水螅的孤儿基因指导其嘴周围进食须的发育。北极鳕的孤儿抗冻基因顾名思义是使其在冰天雪地的北极得以生存。

更难以置信的是。。。

有意思的是，孤儿基因常常在睾丸或者大脑中表达。不久之前，有人甚至开始“妄测”孤儿基因有助于史上最伟大的发明——人脑的进化！ 2011年，Long和他的合作者鉴定了来自人类，黑猩猩还有红毛猩猩的198个在前额皮质表达的孤儿基因。前额皮质区是和高级认知息息相关的。结果其中54个基因是只存在于人脑中的。用进化论的话来说，就是这些基因非常年轻，最早形成于2.5亿年前（最早的生命有30亿年的历史了），它们的到来使得某些灵长类大脑的前额区域开始发达起来。 Long认为“这些新基因和大脑的进化有很深的渊源。”

反对者争辩说大多数基因，无论新旧，都或多或少地和大脑运作相关，但这只是结果，不能本末倒置成原因。但Long引用了一份最新的动物研究报告使得自己的猜想更加可信。人孤儿基因中的一个，SRGAP2C，在鼠神经元中的表达虽然不能让鼠脑长得更大，但能让树突棘变得更密，从而让神经元细胞之间有更多的联系。 Long认为更多的联系将带来更强的计算能力。因此这些新进化的人基因很可能参与塑造了人类今天的大脑。德国普伦马普所（Max-Planck Institute）进化生物学家迪托哈特·陶茨（Diethard Tautz）不得不承认“过去我们低估了孤儿基因的作用。”

但是老问题又来了，“它们从哪里来？” 2003年，陶茨和他的合作者认为孤儿基因也是来自于额外的复制，但是随后飞快地进化以至于很短的时间内就和原版基因面目全非了。他们也有证据来支持这个假说。它们发现果蝇中的孤儿基因的进化速度比非孤儿基因要快三倍。

孤儿基因就这样被套进了传统的基因复制起源说中。但是最近的研究表明，这个复制起源假说只能解释很小一部分孤儿基因的起源。尽管这个假说十分重要，但并不能解释全部的事实。陶茨解释说“复制假说在当时是最合理的解释，因为另一种假说看上去更不可能。”

另一种假说？是的，这个唯一的另一种假说就是认为基因可以完全由非编码的DNA片段随机拼凑出来。这个假说打一开始就没人欣赏，因为从一个非编码基因到可编码基因之间横着的的鸿沟在科学家眼中实在是太巨大了。但是大自然显然没有读过生物学教科书。从几年前开始，越来自酵母，大米，老鼠以及果蝇的基因证据表明基因是可以“无中生有”的。 2009年，爱尔兰都柏林大学的大卫·诺尔斯（David Knowles）和伊芙·麦克莱萨特（Aoife McLysaght）证实了三个人孤儿基因确实是拼凑出来的。

他们发现这几个基因与其他灵长类基因组中的一些DNA片段相似，但这些片段是非编码的。这说明这些编码基因是人猿相揖别之后才形成的。他们还证实了这些孤儿基因被转录成RNA然后在许多组织中被翻译成蛋白质，但是这些蛋白质的具体功能尚不清楚。

2011年，另一个研究小组宣称又发现了60个人孤儿基因是拼接而来的。但麦克莱萨特认为这可能有点夸大了——她相信从头的基因合成在体内是一种十分罕见的现象。

但另外一些研究者则开始倾向于认为这一现象并不那么罕见。一项由西班牙巴塞罗那市立医学研究所的两位学者，阿尔巴（M. Mar Alba）和马卡丽娜（Macarena Toll-Riera）领导的关于270个灵长类孤儿基因的研究表明，只有四分之一的孤儿基因可以用复制然后快速进化假说来解释（Molecular Biology and Evolution, vol 26, p603）。而近60%的孤儿基因是“新”的。 “毫无疑问，从头进化强有力地，源源不断地推动着新的基因诞生，” 陶瓷说道，“现在看来，大多数的孤儿基因似乎是由从头进化而来的。”

但是拼凑的基因是怎么拼凑出来的呢？诺尔斯和麦克莱萨特发现孤儿基因总是紧接着“老”基因，有时候甚至有小部分是重叠的，这样一来，孤儿基因就可以借用老基因的DNA转换开关了。无独有偶，阿尔巴和马卡丽娜也发现270个灵长类孤儿基因借用了老基因的“可移动DNA片段”，这是一种基因“寄生虫”，可以在基因组内到处游走。另外，今年早些时候发布的人类基因组的DNA元件百科全书计划（Encyclopedia Of DNA Elements Project）显示我们的DNA充斥着数以万计的潜在的有用的短的开关序列，每一个开关元件都可以任意连接到众多的基因上。

所有的这些发现表明非编码DNA获得DNA转换开关元件是相对比较容易的。事实上，ENCODE计划发现多达80%的DNA至少有一次被转换成过RNA拷贝。有人坚称所有这些转化了的RNA都是有功能的，但也有人认为大多数这样的转化只是“噪音”而已，这些废弃的DNA不过是被偶然转移来的开关转录成RNA罢了。

基因原型

那么从理论上来讲，我们基本上随时都会产生数以千计的新基因，而加州大学圣迭戈分校的安妮-鲁克桑德拉·卡尔武尼斯（Anne-Ruxandra Carvunis）证明至少在酵母中，这种情况确实存在。她的研究小组在去年分析了酵母基因组中108,000个短的，未知的但可能编译蛋白质的DNA序列（Nature, vol 487, p370）。超过1000个序列与细胞内的蛋白质制造厂有相互作用，这说明这些序列很可能要被翻译成蛋白。 “这也许只是冰山一角。” 卡尔武尼斯如是说。

她的发现表明酵母的蛋白质制造厂经常会粗制滥造出一些新蛋白质，然后试错，自然选择。她推测这一过程发生在所有的复杂生物中。卡尔武尼斯认为，在非编码DNA和高度进化的基因之间存在着一个中间态，即基因原型或者叫做原基因。多数原基因编译的蛋白是中性的甚至是有害的，那么这些原基因将会被自然淘汰，大量的原基因迟早还是会退化成非编码DNA。但有那么一小撮原基因是中性甚至有益的，那么它们就会被固定的表达成蛋白并开始积攒有益的突变。寒来暑往，经历过数百万年的自然选择之后，这些有益原基因进化成了最终的样子——孤儿基因就此诞生了。

这也可以解释为什么孤儿基因往往在睾丸中表达。因为在大多数细胞中，DNA是被紧紧地包裹起来的，被转换成RNA的机会很少，但在未成熟的精细胞中的DNA更加舒展，原基因更容易被转换成RNA。假以时日，这些基因就可能在其他的组织中被表达，甚至获得新的功能。

对蛋白质性质的最新发现让基因从头进化假说看上去更加可信。过去认为蛋白必须折叠成一个有模有样的三维结构才能发挥功效，但现在看来很多蛋白的三维结构是内在无序的。一个蛋白可能有数以千计的可能的构象而每一种都完全不耽误发挥功效。大约有一半的人蛋白质至少有一段无序片段，有十分之一的蛋白则是彻头彻尾的无序分子。

布鲁塞尔法兰德斯生物技术研究所（Flanders Institute of Biotechnology）的彼特·通保（Peter Tompa）研究内在无序蛋白后认为新的孤儿基因更倾向于编码无序蛋白，因为无序蛋白比起折叠好的蛋白来更容易制造。无序蛋白通常在细胞信号传导以及调控中发挥作用。 “如果有一天某个孤儿基因获得了调控功能的话，我不会感到惊讶。” 通保如是说。

这也许可以解释孤儿基因为什么能如此迅速得发展出重要的功能。 2010年，Long的小组应用RNA干扰技术来关闭老的和新的基因。结果发现对于细胞来说，新基因，包括孤儿基因在内，至少和老基因一样重要（Science, vol 330, p1682）。 “这个结果有力地冲击了教科书上的传统观点，传统观点认为重要的基因很早就被进化出来了。” Long如是说。

对于孤儿基因，我们仍有许多的未知，但我们已开始去寻找它们的来历。如果最终我们无法为众多的孤儿基因找到家庭，那么也许是因为它们从来就不曾有过。生发出它们的DNA片段也许我们能够找到，但作为一个有用的基因，它们确实是崭新的。从这个意义上来说，孤儿基因这个名称是一种误读。它们更应该被称为“匹诺曹基因”——非基因由于机缘巧合而无中生有，被自然逐渐雕琢成完美的，真实的基因。

转载本文请联系原作者获取授权，同时请注明本文来自高乐科学网博客。
链接地址：https://wap.sciencenet.cn/blog-815820-1019322.html

上一篇：[为译言保存]科学杂志物流特刊之二——互联网的兄弟，“物联网”
下一篇：[为译言保存]山顶洞“秀”

收藏 IP: 192.218.160.*| 热度|

当前推荐数：3 推荐人：侯沉 crossludo nuobeier1997

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

高乐

扫一扫，分享此博文

legaooagel的个人博客分享 http://blog.sciencenet.cn/u/legaooagel

博文

遗世独立——那些“无家可归”的基因，那些精彩传奇的“孤儿们

当前推荐数：3 推荐人：侯沉 crossludo nuobeier1997

该博文允许注册用户评论请点击登录评论 (0 个评论)

高乐

全部作者的其他最新博文

全部精选博文导读

相关博文

legaooagel的个人博客分享 http://blog.sciencenet.cn/u/legaooagel

博文

遗世独立——那些“无家可归”的基因， 那些精彩传奇的“孤儿们

当前推荐数：3 推荐人： 侯沉 crossludo nuobeier1997

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

高乐

全部作者的其他最新博文

全部精选博文导读

相关博文

遗世独立——那些“无家可归”的基因，那些精彩传奇的“孤儿们

当前推荐数：3 推荐人：侯沉 crossludo nuobeier1997

该博文允许注册用户评论请点击登录评论 (0 个评论)