||
一、核心概念
高同源区段指的是在不同DNA序列之间,存在异常高程度的序列一致性的基因组区域。
“同源”:这意味着这些序列共享一个共同的祖先序列。高相似性通常是由于在进化过程中,这些区域受到强烈的功能约束或受限于复制时间而未分化。
二、高同源区段的类别
1.亚基因组
在异源多倍体生物中(如小麦、棉花、油菜),它们由两个或多个不同的祖先物种杂交形成。形成的新基因组中,来自不同祖先的几套染色体组就被称为亚基因组。
与高同源区段的关系:
这些不同的亚基因组拥有共同的远古祖先,因此它们之间在整体上就是同源的。在异源多倍体物种中,不同亚基因组之间的同源染色体上存在大量高同源区段。例如,小麦A基因组上的某个基因区段,在B和D基因组的对应位置上,几乎一定能找到序列高度相似的区段。这些高同源区段的存在是多倍体物种进行基因表达调控(例如部分同源基因的选择性沉默或表达)和减数分裂时染色体正确配对的分子基础,同时也为育种提供了丰富的遗传变异。
2.假基因
假基因是基因组中由于突变(如移码突变、无义突变、启动子缺失等)而丧失原有蛋白质编码功能的基因拷贝。
与高同源区段的关系:
假基因来源于功能性基因的复制(通过逆转录或基因组DNA复制),因此在诞生之初,它与它的亲本功能基因的序列是高度同源的。随着时间推移,由于不再受到自然选择的压力,假基因会积累更多突变,其序列同源性会逐渐降低。但一个“年轻”的假基因与其功能基因之间,依然会是一个典型的高同源区段。识别假基因的主要方法之一,就是在基因组中发现与功能基因序列高度相似但含有致命突变(如提前出现终止密码子)的区段。
3.重复序列
指在基因组中重复出现多次的DNA序列。可分为两大类:串联重复序列:如卫星DNA(着丝粒、端粒区)、微卫星DNA。散在重复序列:如转座子,包括DNA转座子和逆转录转座子。
与高同源区段的关系:
重复序列的本质就是自我复制和增殖。同一个家族的重复序列(尤其是转座子)在基因组中有成千上万个拷贝。这些拷贝之间序列高度相似,构成了基因组中最大、最常见的高同源区段。这些高同源区段是基因组组装的主要挑战,因为短的测序读数无法准确区分这些几乎一模一样的区域,容易导致错误。同时,它们也是染色体在减数分裂时发生非等位同源重组的主要根源,从而导致基因缺失、重复等结构变异。
4.同源基因
指来源于一个共同祖先基因的那些基因。根据来源方式可分为:
直系同源基因:源于物种形成事件(如人类和老鼠的胰岛素基因),通常保留相同功能。
旁系同源基因:源于基因复制事件(如人类体内的多个珠蛋白基因),功能可能分化。
与高同源区段的关系:
同源基因之间必然存在同源区段,但其相似性“高”与否取决于进化时间和功能约束。近期产生的旁系同源基因(如人类HBA1和HBA2珠蛋白基因):序列一致性极高,是典型的高同源区段。它们可能形成基因簇。古老的同源基因:虽然同源,但经过亿万年的变异积累,序列相似性可能已经不高,主要在关键功能域上保留较高相似性。
测序过程中,高相似性的序列容易引发测序错误和数据分析的困难。那如何解决这问题呢?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-9-22 02:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社