博文

高同源区段SNP分型（一）

已有 947 次阅读 2025-9-19 16:25 |个人分类:SNP|系统分类:科普集锦

一、核心概念

高同源区段指的是在不同DNA序列之间，存在异常高程度的序列一致性的基因组区域。

“同源”：这意味着这些序列共享一个共同的祖先序列。高相似性通常是由于在进化过程中，这些区域受到强烈的功能约束或受限于复制时间而未分化。

二、高同源区段的类别

1.亚基因组

在异源多倍体生物中（如小麦、棉花、油菜），它们由两个或多个不同的祖先物种杂交形成。形成的新基因组中，来自不同祖先的几套染色体组就被称为亚基因组。

与高同源区段的关系：

这些不同的亚基因组拥有共同的远古祖先，因此它们之间在整体上就是同源的。在异源多倍体物种中，不同亚基因组之间的同源染色体上存在大量高同源区段。例如，小麦A基因组上的某个基因区段，在B和D基因组的对应位置上，几乎一定能找到序列高度相似的区段。这些高同源区段的存在是多倍体物种进行基因表达调控（例如部分同源基因的选择性沉默或表达）和减数分裂时染色体正确配对的分子基础，同时也为育种提供了丰富的遗传变异。

2.假基因

假基因是基因组中由于突变（如移码突变、无义突变、启动子缺失等）而丧失原有蛋白质编码功能的基因拷贝。

与高同源区段的关系：

假基因来源于功能性基因的复制（通过逆转录或基因组DNA复制），因此在诞生之初，它与它的亲本功能基因的序列是高度同源的。随着时间推移，由于不再受到自然选择的压力，假基因会积累更多突变，其序列同源性会逐渐降低。但一个“年轻”的假基因与其功能基因之间，依然会是一个典型的高同源区段。识别假基因的主要方法之一，就是在基因组中发现与功能基因序列高度相似但含有致命突变（如提前出现终止密码子）的区段。

3.重复序列

指在基因组中重复出现多次的DNA序列。可分为两大类：串联重复序列：如卫星DNA（着丝粒、端粒区）、微卫星DNA。散在重复序列：如转座子，包括DNA转座子和逆转录转座子。

与高同源区段的关系：

重复序列的本质就是自我复制和增殖。同一个家族的重复序列（尤其是转座子）在基因组中有成千上万个拷贝。这些拷贝之间序列高度相似，构成了基因组中最大、最常见的高同源区段。这些高同源区段是基因组组装的主要挑战，因为短的测序读数无法准确区分这些几乎一模一样的区域，容易导致错误。同时，它们也是染色体在减数分裂时发生非等位同源重组的主要根源，从而导致基因缺失、重复等结构变异。

4.同源基因

指来源于一个共同祖先基因的那些基因。根据来源方式可分为：

直系同源基因：源于物种形成事件（如人类和老鼠的胰岛素基因），通常保留相同功能。

旁系同源基因：源于基因复制事件（如人类体内的多个珠蛋白基因），功能可能分化。

与高同源区段的关系：

同源基因之间必然存在同源区段，但其相似性“高”与否取决于进化时间和功能约束。近期产生的旁系同源基因（如人类HBA1和HBA2珠蛋白基因）：序列一致性极高，是典型的高同源区段。它们可能形成基因簇。古老的同源基因：虽然同源，但经过亿万年的变异积累，序列相似性可能已经不高，主要在关键功能域上保留较高相似性。

测序过程中，高相似性的序列容易引发测序错误和数据分析的困难。那如何解决这问题呢？

转载本文请联系原作者获取授权，同时请注明本文来自邓倩云科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3140696-1502695.html

上一篇：DNA甲基化年龄检测(三)
下一篇：牛源病原体的危害和检测

收藏 IP: 223.166.128.*| 热度|

当前推荐数：1 推荐人：王涛

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

邓倩云

扫一扫，分享此博文

doudouEunice的个人博客分享 http://blog.sciencenet.cn/u/doudouEunice

博文

高同源区段SNP分型（一）

当前推荐数：1 推荐人：王涛

该博文允许注册用户评论请点击登录评论 (0 个评论)

邓倩云

全部作者的其他最新博文

全部精选博文导读

doudouEunice的个人博客分享 http://blog.sciencenet.cn/u/doudouEunice

博文

高同源区段SNP分型（一）

当前推荐数：1 推荐人： 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

邓倩云

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：王涛

该博文允许注册用户评论请点击登录评论 (0 个评论)