第一代表观生物时钟是表观遗传衰老领域研究的“开山之作”,以加州大学洛杉矶分校(UCLA)的衰老研究专家、遗传学家及生物统计学家Steve Horvath教授,在2013年开发的第一代泛组织表观遗传时钟,也称为Horvath时钟,依托353个CpG位点构建,可适配51种组织和细胞类型,年龄预测中位绝对误差仅3.6年,打破了此前时钟的组织局限性;同年,与Horvath时钟齐名的是Hannum时钟,由加州大学圣迭戈分校(UCSD)的Gregory Hannum教授团队开发,基于血液样本的71个CpG位点构建,年龄预测平均误差为3.9年,更适用于血液样本的衰老评估。两者共同成为早期表观遗传衰老研究中应用最广泛的两大经典工具,Horvath时钟侧重跨组织通用性,Hannum时钟则聚焦血液样本场景。
以Horvath 时钟为例,可以了解检测的甲基化位点是怎样筛选确定的:Horvath 时钟 353 个 CpG 位点的筛选流程,是从大规模甲基化芯片数据开始的,经过样本/位点质控、候选池构建、弹性网正则化筛选、交叉验证优化与独立测试验证的完整流程,核心是使用82个数据集、8,000 个样本、51种组织的跨平台数据,锁定兼顾年龄预测力与组织普适性的核心位点。以下是分步骤详解:
一、数据准备与质控(基础筛选)
样本纳入:整合 82 个公开 Illumina 甲基化数据集,覆盖 8,000 个样本、51 种健康组织/ 细胞类型,排除严重病变样本,确保跨组织适用性。
芯片位点交集:以 Illumina 27K 与 450K 芯片的共同位点为基础(避免平台差异),初步得到约 2.7 万个候选位点,也就是从2.7万个甲基化位点开始。
位点质控:剔除缺失值≥10% 的位点,最终保留21,369 个高质量候选 CpG 位点作为筛选池,同时对样本进行标准化,缺失值插补:填补缺失数据,保证完整性;离群值去除:剔除异常数值,保障可靠性。
二、弹性网惩罚回归筛选(核心算法)
弹性网惩罚回归就像一把双功能智能筛子,从2万多个CpG位点里精准淘出了353个能预测年龄的核心位点:既剔除无用杂质,又稳住有效位点的关联性,让筛选结果既精准又靠谱。简单说,它一边像普通筛子那样,把和年龄毫无关联的位点直接筛掉,避免冗余信息干扰;另一边又像缓冲垫,对那些功能相似、高度相关的位点做好平衡,不随意剔除任一有效位点,最终锁定的353个位点,既够精简又能跨组织稳定预测年龄,这也是Horvath时钟实现高精准度的关键一步。
采用弹性网(Elastic Net)正则化回归,平衡 L1(Lasso)与 L2(Ridge)惩罚,实现 “特征选择 + 参数收缩” 双重目标,流程如下:
模型设定:以chronological age(日历年龄)为因变量,21,369 个 CpG 位点的甲基化β值为自变量,通过弹性网自动权衡预测精度与模型复杂度。(即:用21,369个CpG位点的甲基化 β值(能影响结果的自变量),借助弹性网模型兼顾预测精准度和模型简洁性,来推算与之关联的日历年龄(被预测的因变量)。
参数优化:通过 10 折交叉验证(10-fold CV)确定惩罚系数 λ(控制正则化强度)与混合比例 α(α≈0.5,均衡 L1/L2),最小化预测误差。
位点锁定:算法自动将无预测价值位点的系数压缩至 0,最终保留353个非零系数CpG 位点,其中 193 个甲基化随年龄上升、160 个随年龄下降。
三、模型验证与普适性确认(性能保障)
内部交叉验证:在训练集内通过多轮 CV 验证,确保353个位点在不同组织/样本中均有稳定年龄预测力,中位绝对误差(MAE)仅 3.6 年。
独立测试集验证:在未参与训练的独立数据集(如其他组织样本、灵长类样本)中测试,验证跨组织/物种适用性,相关系数(r)达 0.96 以上。
组织普适性验证:确认同一套位点可用于51种组织/细胞类型,无需组织特异性调整,成为首个泛组织表观遗传时钟。
该流程的核心创新在于:通过弹性网在高维数据中精准筛选核心位点,同时兼顾年龄相关性与组织普适性,为后续表观遗传时钟的发展奠定了方法学基础。
四.353 个位点的染色体分布与基因注释
第一代 Horvath 时钟的353个CpG 位点在染色体上呈非随机分布,多富集于基因调控区,且与衰老相关通路高度关联,以下是核心分布与注释信息:

染色体分布概况:353个位点覆盖1-22号常染色体与X染色体,无 Y 染色体位点,分布相对分散但存在富集区域,核心特征如下:
整体特征:无单条染色体独占核心位点,避免染色体偏好性;常染色体覆盖均衡,X 染色体位点参与性别相关表观遗传调控,适配跨性别样本预测。
物理位置:多位于基因间区(约 40%)、启动子区(约 25%,含 TSS±2kb)、内含子区(约 20%),外显子区占比极低(<5%),符合甲基化调控基因表达的核心逻辑。
基因注释核心信息
1.功能基因关联
核心关联基因:涉及 EDARADD、FOXO3、ELOVL2 等衰老/寿命相关基因,如 cg19692710(EDARADD 启动子区)、cg24704289(FOXO3 内含子区),这些位点甲基化水平随年龄显著变化,直接关联细胞衰老通路。
通路富集:富集于 DNA 修复(如 MLH1)、细胞周期调控(如 CDKN2A)、端粒维持(如 TERT)等通路,353个位点的甲基化变化可协同反映细胞衰老的表观遗传累积效应。
2.CpG 岛与甲基化特征
约 60% 位点位于 CpG 岛或岛岸区域,这些区域甲基化状态易受年龄影响,且调控基因转录活性;40% 位于非 CpG 岛区域,多为基因间调控元件。
193 个位点甲基化随年龄上升(如 cg16867657,ELOVL2 基因),160 个随年龄下降(如 cg01873645,与细胞周期调控相关),两类位点协同提升年龄预测精度。
3.组织普适性关联
注释位点多为泛组织表达基因的调控区,无组织特异性甲基化位点,这是该时钟能跨 51种组织/细胞类型预测年龄的核心原因;部分位点虽在特定组织中甲基化波动较大,但整体仍保持年龄相关性。
总结:353 个位点的染色体分布与基因注释,体现了兼顾调控功能与组织普适性的筛选逻辑:染色体分散分布避免偏倚,基因调控区富集保障年龄相关性,衰老通路关联赋予生物学意义,为其跨组织精准预测年龄提供了分子基础。Horvath 和 Hannum 是表观遗传时钟(epigenetic clocks)领域两位开创性研究者,他们在2013年几乎同时独立发表了第一代DNA甲基化衰老时钟的经典论文。这两个时钟至今仍是该领域的基准模型,被列为第一代(First generation)表观遗传时钟的代表。
转载本文请联系原作者获取授权,同时请注明本文来自阎影科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3302154-1519696.html?mobile=1
收藏