doudouEunice的个人博客分享 http://blog.sciencenet.cn/u/doudouEunice

博文

高同源区段SNP分型(一)

已有 218 次阅读 2025-9-19 16:25 |个人分类:SNP|系统分类:科普集锦

一、核心概念

 

高同源区段指的是在不同DNA序列之间,存在异常高程度的序列一致性的基因组区域。

“同源”:这意味着这些序列共享一个共同的祖先序列。高相似性通常是由于在进化过程中,这些区域受到强烈的功能约束或受限于复制时间分化。

 

二、高同源区段类别

 

1.亚基因组

在异源多倍体生物中(如小麦、棉花、油菜),它们由两个或多个不同的祖先物种杂交形成。形成的新基因组中,来自不同祖先的几套染色体组就被称为亚基因组。

 

与高同源区段的关系:

这些不同的亚基因组拥有共同的远古祖先,因此它们之间在整体上就是同源的。在异源多倍体物种中,不同亚基因组之间的同源染色体上存在大量高同源区段。例如,小麦A基因组上的某个基因区段,在BD基因组的对应位置上,几乎一定能找到序列高度相似的区段。这些高同源区段的存在是多倍体物种进行基因表达调控(例如部分同源基因的选择性沉默或表达)和减数分裂时染色体正确配对的分子基础,同时也为育种提供了丰富的遗传变异。

 

2.假基因

 

假基因是基因组中由于突变(如移码突变、无义突变、启动子缺失等)而丧失原有蛋白质编码功能的基因拷贝。

 

与高同源区段的关系:

假基因来源于功能性基因的复制(通过逆转录或基因组DNA复制),因此在诞生之初,它与它的亲本功能基因的序列是高度同源的。随着时间推移,由于不再受到自然选择的压力,假基因会积累更多突变,其序列同源性会逐渐降低。但一个“年轻”的假基因与其功能基因之间,依然会是一个典型的高同源区段。识别假基因的主要方法之一,就是在基因组中发现与功能基因序列高度相似但含有致命突变(如提前出现终止密码子)的区段。

 

3.重复序列

指在基因组中重复出现多次的DNA序列。可分为两大类:串联重复序列:如卫星DNA(着丝粒、端粒区)、微卫星DNA。散在重复序列:如转座子,包括DNA转座子和逆转录转座子。

 

与高同源区段的关系:

重复序列的本质就是自我复制和增殖。同一个家族的重复序列(尤其是转座子)在基因组中有成千上万个拷贝。这些拷贝之间序列高度相似,构成了基因组中最大、最常见的高同源区段。这些高同源区段是基因组组装的主要挑战,因为短的测序读数无法准确区分这些几乎一模一样的区域,容易导致错误。同时,它们也是染色体在减数分裂时发生非等位同源重组的主要根源,从而导致基因缺失、重复等结构变异。

 

4.同源基因

指来源于一个共同祖先基因的那些基因。根据来源方式可分为:

直系同源基因:源于物种形成事件(如人类和老鼠的胰岛素基因),通常保留相同功能。

旁系同源基因:源于基因复制事件(如人类体内的多个珠蛋白基因),功能可能分化。

 

与高同源区段的关系:

同源基因之间必然存在同源区段,但其相似性“高”与否取决于进化时间和功能约束。近期产生的旁系同源基因(如人类HBA1HBA2珠蛋白基因):序列一致性极高,是典型的高同源区段。它们可能形成基因簇。古老的同源基因:虽然同源,但经过亿万年的变异积累,序列相似性可能已经不高,主要在关键功能域上保留较高相似性。

 

测序过程中,高相似性的序列容易引发测序错误和数据分析的困难。那如何解决这问题呢?



https://wap.sciencenet.cn/blog-3140696-1502695.html

上一篇:DNA甲基化年龄检测(三)
下一篇:牛源病原体的危害和检测
收藏 IP: 223.166.128.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-9-22 02:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部