科学网-TWRCI：转录组数据中推断根基因-张俊鹏的博文

TWRCI：转录组数据中推断根基因

2025-9-26 20:08

阅读：2350

TWRCI：转录组数据中推断根基因

遗传和非遗传因素可以调节基因表达水平，最终导致疾病的发展。根基因表达水平——简称根基因——对应那些初始表达变化触发致病级联反应，最终导致疾病和后续表型结果的基因。根基因启动发病机制，与直接导致疾病表型的核心基因不同，核心基因位于致病途径的末端。根基因还泛化驱动基因，这些基因主要解释癌症中蛋白质编码序列体细胞突变的影响。此外，根基因与主调控基因不同，主调控基因控制许多下游基因，但并不一定驱动疾病。

识别根基因对于确定早期干预的药物靶点至关重要，可能阻止下游疾病进展。这项任务因复杂疾病而变得复杂，其中根基因的因果效应可能因患者而异，即使在同一诊断类别中也是如此。最近提出的全基因根基因模型假设少数根基因对患者诊断产生强烈的因果效应，同时影响几乎所有下游基因的表达（因此称为“全基因”）。这种广泛的影响产生了广泛的基因-诊断相关性，呈现出“复杂”疾病的表象。因此，我们的目标是估计每个患者中根基因的个性化因果效应，从而识别那些在驱动疾病发展中具有显著影响的基因。

仅有一种现有算法能够准确估计根基因的个性化因果效应，但它依赖于全基因组 Perturb-seq，或高通量扰动结合单细胞 RNA 测序读数。Perturb-seq 目前成本高昂，且难以在多种细胞类型中实施。为解决这一问题，Strobl等人提出一种方法，利用广泛可用的观察性（非实验性）数据集，如批量 RNA 测序和遗传变异数据，来推断根基因的个性化因果效应。这项任务复杂，因为观察性数据集缺乏实验控制，需要稳健的策略来考虑混杂因素，而不依赖于基于扰动的因果推断。

《Transcriptome-wide root causal inferenc》主要贡献如下：

1. 介绍了条件根因果效应（CRCE），这是一种量化遗传和非遗传因素对基因表达水平直接影响的疾病表型的指标。

2. 提出了一种名为竞争回归的新策略，该策略能够准确地将顺式和反式作用的遗传变异标注到它们直接影响的基因表达水平或表型上，而无需依赖保守的统计显著性阈值。

3. 创建了一种名为转录组范围根基因推断（TWRCI）的算法，该算法利用标注信息构建一个个性化的因果图，总结基因表达水平的 CRCE。该算法仅依赖于遗传变异和批量 RNA 测序的观测数据。

4. 通过验证性复制实验表明，TWRCI 仅在每个患者中识别少数具有较大个性化因果效应的根基因——即使在复杂疾病中也是如此——这与全基因根基因模型一致。此外，非根基因解释了 CRCE中大部分的变异，这与驱动基因以及其他因果（但非根基因）推理方法（如转录组全关联研究和孟德尔随机化）的基因中心焦点形成对比。

TWRCI 算法（图1，https://github.com/ericstrobl/TWRCI）首先使用广泛可用的全基因组关联研究（GWAS）汇总统计数据来筛选与表型相关的变异，然后使用更精细的个体水平数据来注释所选的顺式和反式作用遗传变异，将其与它们直接调控的表达水平或表型关联起来。结果证明，直接因果注释使算法能够唯一重建导致表型的基因表达水平之间的因果图，并估计它们的 CRCE。该算法通过加权并着色每个顶点来总结图中的 CRCE，其中顶点大小反映效应大小，绿色表示促进表型的效应，红色表示抑制表型的效应。因此，TWRCI 仅使用观察数据就提供了关于根因果基因及其根因果效应大小的简洁、患者特定的总结。TWRCI 在所有子任务（注释、图重建和 CRCE 估计）中都优于现有算法的组合。

图1 TWRCI 算法概述。(A) 个性化因果图的详细表示。(B) TWRCI 从变量选择开始，仅保留与 Y 相关的变异和基因表达水平，以及它们共同的混杂因素，黑色高亮显示。(C) 算法随后使用竞争回归找到直接导致 Y 的变异，橙色标记。(D) 竞争回归被迭代应用于标注直接影响每个基因表达水平的变异，同样橙色标记。(E) TWRCI 接着使用因果发现推断基因表达水平与 Y 之间的直接因果关系，蓝色表示。(F) TWRCI 根据其 CRCE Γ的幅度为每个基因表达顶点分配权重，颜色指示效应方向：绿色表示表型促进（正向），红色表示表型阻止（负向）