博文

相关混合数据因果发现及其在基因调控网络推断中的应用

已有 222 次阅读 2026-4-18 22:26 |个人分类:科普|系统分类:科普集锦

相关混合数据因果发现及其在基因调控网络推断中的应用

因果发现旨在从观测数据中识别变量之间的潜在因果关系。它通常通过有向无环图（DAG）的框架来形式化，其中 DAG 的节点表示随机变量，边表示变量之间的因果关系。具体来说，设 V = {V₁, ..., Vₚ}表示一组 p 个随机变量的集合，设 G = (V, E)是一个具有变量（节点）集 V 和边集 E 的有向无环图，其中边 i → j ∈ E 意味着 Vᵢ是 Vⱼ的直接原因。因果发现方法学习潜在 DAG 的结构（即边集），该结构最能解释变量之间的观测条件独立性。学习得到的图中的有向边表明哪些变量直接影响其他变量，从而区分关联与因果关系。

因果发现方法通常分为三类：基于约束的方法、基于评分的方法和混合方法。Glymour、Zhang 和 Spirtes以及 Nogueira 等人对因果发现方法进行了全面综述。本文简要回顾每个类别中最经典的算法。基于约束的方法通过一系列条件独立性检验来系统地识别和定向图中的边。通常，这些方法从一个包含所有观测变量的完全无向图开始，然后当两个变量在其他观测变量的条件独立时，迭代地剪除边。剪除阶段的结果是一个骨架，该方法随后通过逻辑定向规则进行定向，这些规则源自图属性，如 Meek引入的 v 结构和无环性。最著名的基于约束的方法是 PC 算法。基于评分的方法在图空间中搜索，以识别一个 DAG 或一组 DAG 的等价类，该等价类最大化预定义的分数函数。一个常用的例子是贝叶斯信息准则（BIC），它通过惩罚过于复杂的图来平衡拟合优度与模型复杂度。基于分数方法的常见例子包括贪婪等价搜索和贪婪爬山，它们都通过迭代修改图来提高分数。混合方法结合了基于约束和基于分数的学习方法，以利用每种方法的独特优势。一个例子是最大最小爬山（MMHC）算法。MMHC 首先使用条件独立性测试来识别骨架。然后，一种基于分数的搜索方法用于通过选择最大化评分标准的方向来定向学习到的骨架中的边。

大多数因果发现方法依赖于一个关键假设：观测值是独立同分布的。然而，这一假设在实际应用中往往被违反，因为在现实世界中样本之间存在依赖关系是自然产生的。例如，在社会网络分析中，个人的行为受到他们的社交关系的影响，如朋友、家人或同事，导致个体之间存在相互依赖的特征。当数据包含连续变量和离散变量时，会引入另一层复杂性。社会网络数据可能包含连续参与指标、二元指示符和分类人口统计变量的混合。在基因组学中，某些变量通常表示为离散状态，例如细胞中蛋白质的存在与否，而其他变量，如基因的表达水平，则连续变化。根据数据质量和生成机制对基因表达水平进行离散化也是一种常见做法。混合数据在建模样本间依赖性时尤其具有挑战性，因为在不同单元的离散数据中引入依赖性并不直接。为了应对这些挑战，Chen等人提出了一种适用于混合数据的样本依赖 DAG 模型，并开发了一种去相关方法，该方法在这些设置下促进了因果 DAG 的结构学习。

尽管该方法适用于多种数据领域，但本研究的主要应用是从单细胞 RNA 测序（scRNA-seq）数据中推断基因调控网络（GRN）。作者们通过一个因果有向无环图（DAG）来建模 GRN，其中有向边 Vi→ Vj 表示基因 i 直接调控基因 j 的表达。细胞可能源自同一谱系或遵循共同的分化轨迹，导致基因表达模式中存在隐式关联。这种依赖结构会在细胞之间引入内在相关性，而批次效应等技术因素可能会进一步放大这种相关性。作为另一个例子，细胞间信号传导和空间组织在细胞之间创建了结构化依赖，导致基因表达模式存在相关性。因此，scRNA-seq 数据中的基因表达测量可能违反许多标准因果发现方法所依赖的独立同分布假设。此外，基因表达可以表示为连续数据和离散数据的组合，从而形成一个混合数据环境。

GRN 推理方法已专门为单细胞应用开发。Pratapa 等人使用合成 GRN 对各种 GRN 推理方法进行了全面的基准研究，并在多个标准下评估了它们的性能。在表现最好的方法中，GENIE3通过一系列回归问题进行 GRN 推理。具体来说，对于每个目标基因，会训练一个基于树的集成模型（例如随机森林）来预测其表达，将其作为函数。特征重要性得分在多个模型中聚合，以推断调控边。类似地，GRNBoost2基于 GENIE3，通过使用梯度提升机来提高性能和扩展到大型单细胞数据集的能力。GENIE3 和 GRNBoost2 都依赖于条件分布的预测模型。因此，得到的调控网络捕获了统计依赖性，但缺乏因果解释。另一种表现优异的方法 PIDC通过基于基因对之间互信息的信息理论方法推断 GRN 结构，但仅估计无向网络。虽然这些方法在恢复单细胞数据中合理的生物相互作用方面已显示出经验结果，但它们都依赖于隐含的假设，即单个细胞是独立同分布的。如上所述，细胞之间可能表现出显著的依赖性。这些挑战促使我们开发因果发现方法，该方法明确考虑了多种数据类型混合中的样本依赖性。

Chen等人最近的因果发现模型有两个主要贡献。首先，将去相关框架应用于因果发现，用于从具有潜在细胞间依赖性的单细胞 RNA 测序数据中学习基因调控网络。然而，单细胞表达数据可能包含连续的基因表达和多级离散状态，而现有的去相关方法无法处理这些数据。为此，作者们将潜变量公式以及相关的去相关方法推广到一般离散和连续变量的混合。其次，将所提出的框架应用于 Chu 等人对从 scRNA-seq 数据中推断基因调控网络的大规模研究。进一步通过自助法开发了一种稳定性度量方法，以量化估计的基因调控相互作用（学习图中边的）的不确定性。高置信度的边确实得到了文献中报道的已知生物相互作用的支持，这证明了去相关方法在复杂生物数据中的因果发现的有效性。

全文介绍了一种适用于相关混合数据的新的有向无环图（DAG）模型，并概述了去相关方法。此外，描述了预先估计某些模型参数的步骤，特别是单元之间的协方差矩阵。发展了混合数据的潜变量恢复和去相关方法。在随机和真实 DAG 上进行了模拟研究。将方法应用于单细胞数据，并将估计的基因调控关系与生物学文献中报道的发现进行评估。最后总结了主要发现和未来研究的潜在方向。

总结

在这项工作中，作者们介绍了一种用于依赖性混合类型观测数据的因果发现原理框架。为了建模数据，构建了一个潜变量结构方程模型，其中每个观测变量都由一个潜在的连续潜过程生成。离散变量通过应用于潜高斯变量的阈值机制产生，而连续变量则直接观测。所提出模型的一个核心特征是通过相关的外生噪声项实现单元间的交叉依赖。这导致样本之间的依赖性，这种依赖性正交于由有向无环图编码的变量间因果关系。这两种依赖性来源——单元间依赖和变量间依赖——使得传统因果发现方法复杂化，这些方法假设单元间独立。

这促使作者们提出了去相关方法，该方法利用估计的协方差矩阵来转换潜在连续数据。去相关后，样本近似独立，同时保留了变量之间的潜在因果结构。在去相关数据的基础上，可以使用任何标准的因果发现方法来估计潜在的 DAG。一个关键见解是，因果发现算法无需为依赖数据重新设计，而是可以通过适当的转换在数据上游解决数据依赖问题。

在模拟和真实网络中，该方法始终比从原始数据估计的图产生更好的因果图。重要的是，证明了提出的框架的改进主要归因于混合数据的去相关，而不仅限于特定的因果发现算法类别。该方法在高维设置（p > n）和单元间强依赖的情况下特别有效。

在从单细胞 RNA 测序数据中学习基因调控网络的应用中，作者们设计了一种自助法重采样方法，以量化基因之间以及与生物学文献一致的预测高置信度相互作用之间推断的因果关系稳定性。还通过交叉验证表明，该方法在未进行去相关处理的情况下直接应用于单细胞数据时，该方法性能显著优于因果发现方法，支持了单细胞 RNA 测序数据中细胞间依赖性的观点。

未来展望

首先，该方法是为观测数据设计的，不包含实验干预或已知的因果约束。在许多实际应用中，存在部分干预数据或先验知识，这些可以显著提高因果可识别性和估计精度。将改框架扩展以整合干预数据或纳入先验因果知识将增强其在实际场景中的适用性。其次，数据生成模型和估计程序假设潜在连续数据上的线性结构方程模型。虽然线性 SEM 被广泛使用，但它们可能不足以捕捉现实世界系统中出现的复杂、潜在的非线性相互作用。

参考文献

[1] Chen A, Zhou Q. Causal Discovery on Dependent Mixed Data with Applications to Gene Regulatory Network Inference. arXiv preprint arXiv:2603.24783, 2026. https://doi.org/10.48550/arXiv.2603.24783

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC