博文

单细胞基因组学的因果机器学习

已有 2105 次阅读 2025-4-20 15:45 |个人分类:科普|系统分类:科普集锦

单细胞基因组学的因果机器学习

细胞是生命的基本单位，其功能和身份由复杂的物理和生化过程塑造。了解细胞过程中的因果关系对于揭示驱动细胞行为（如增殖、分化和凋亡）的复杂生物学机制至关重要，对于识别相关的信号分子、遗传突变或环境刺激至关重要，对于帮助开发癌症、神经变性疾病和代谢综合征等疾病的靶向治疗至关重要。

单细胞分辨率的分子分析进展为细胞过程提供了前所未有的视角。机器学习已开始应用于单细胞基因组学，并做出了关键贡献，如降维（主要用于可视化目的）、数据集成（构建细胞图谱）、轨迹推断（用于推断细胞命运）和跨模态迁移模型预测。然而，这些方法只提供了对潜在生物过程的有限见解，并没有改善对实验结果的预测。

应用于单细胞基因组学的大多数机器学习方法都以非因果统计学习为基础，该学习利用了统一数据分布中的模式。然而，当实验条件改变时，数据分布也会相应改变；因此先前识别的模式可能不再相关，非因果统计学习可能无法推广。因果机器学习（如图1a所示）旨在通过发现与（一系列）生化相互作用相对应的生物机制，在新的条件下实现良好的预测，一个生物量通过这些机制影响另一个。这与通过统计学习捕获的虚假相关性（不反映潜在的生化相互作用）相反，这些相关性通常会导致在变化条件下的泛化能力较差。即使在小分子或CRISPR扰动（如图1b所示）等环境中实验条件发生变化（类似于物理规则的不变性），大多数生物机制预计也会保持不变。然而，在某些情况下，如温度和压力的变化，大多数机制都会受到直接影响，应该了解因果机制对这些因素的依赖性。更广泛地说，如果实验条件的任何方面，无论是技术还是生物，变化太大，机制都会发生变化。

图1 细胞的因果建模。a、生物扰动或环境变化会影响细胞机制，导致基因表达改变和其他可测量的结果。细胞机制的这些改变可以通过因果模型中的干预来模拟，以预测不同条件下的基因表达和结果。b、使用受不同生物扰动影响的各种细胞类型的观测数据集，统计学习方法可以预测训练数据中存在的细胞类型和扰动的结果。然而，它们往往无法准确预测新扰动或新细胞类型的结果，这是因果学习方法所面临的挑战

为了在细胞生物学中产生影响，因果机器学习必须适应所建模的生物系统和所使用的数据模式的特异性。此外，当因果推理方法的一些核心独立性假设（如稳定的单位处理值假设和没有隐藏的混淆）被违反或模型被错误指定时（例如，假设系统的完全可观测性或假设线性调节机制，而已知实际调控机制是非线性的），因果推理方法可能会失败。违反假设可能会导致在看不见的情况下做出错误的预测，并提供不准确的见解。不确定性估计可以帮助避免高度自信但错误的预测，但当核心假设被违反而没有放松时，仍可能导致不准确的预测。

在基因组学中，人们长期以来一直对发现基因之间的相互作用感兴趣，以提供生物过程的机制解释，通常通过模块网络来总结，模块网络将功能在一起且表达紧密相关的基因（即模块）分组，或通过基因调控网络（GRN）来总结，基因调控网络包含从调控因子到受调控基因的定向连接。此外，传统上应用于小规模数据（如蛋白质印迹和定量PCR的结果）的系统生物学的机械和动力学方法现在正被应用于大规模基因组数据。推理方法的范围从使用条件独立性测试来检测相互作用的基因对，到用于分析时间序列的格兰杰因果关系，以及使用黑盒方法直接尝试从实验数据中预测图表的方法。大量的研究工作旨在通过使用多模式数据的启发式方法来改进GRN推理（例如，根据单细胞ATAC-seq测量的转录因子结合位点的可及性和已知转录因子结合位点等先验知识来限制GRN中可能的边集）。验证推断的GRN一直是一个主要挑战，特别是在人类细胞中，真实的GRN仍然是未知的，并且高度依赖于上下文。其他生物体，如大肠杆菌，已被更好地理解，GRN数据库存在，但仍然嘈杂且不完整。

扰动数据的日益可用性可能会增强因果方法在转录组学中的适用性。最近的观点文章《Causal machine learning for single-cell genomics》旨在识别和分析该领域的开放问题，并将其与正在进行的研究方向相结合。在介绍了基因组学和转录组学中的因果推理技术的一些背景后，提出了默认因果模型，该模型是当前单细胞生物学中大多数因果方法的基础。然后，讨论了三个悬而未决的问题，即缺乏对新实验条件的泛化、解释学习模型的复杂性和学习细胞动力学的困难。

结论

因果问题是生物学研究的核心。然而，因果机器学习在单细胞生物学的应用仍处于起步阶段。在文章《Causal machine learning for single-cell genomics》中，作者们讨论了应用于单细胞基因组学的因果机器学习框架，并概述了在新条件下进行准确预测的三个挑战、因果模型的可解释性和转录动力学的推断。

需要大量的数据生成工作来改进模型训练并通过实验验证模型预测。特别是，需要增加可靠干预数据的可用性（每次干预需要大量扰动和细胞数量），干预下的时间观察，以及跨批次和研究的实验方案的标准化。此外，实验重复对于解决批量效应至关重要，使模型能够识别和学习生物信号。这些改进将共同构成大型可靠的介入性单细胞数据集，这些数据集可以作为基准数据集，评估因果方法在新条件下的泛化能力。值得注意的是，社区内已经在努力建立一系列主题的基准，从扰动预测到细胞生物学的实验设计，旨在为评估模型性能和促进该领域的一致性和严谨性提供标准。最终，潜在的未知因素和无法测量的因素的存在使忠实地捕捉生物机制的努力变得复杂。幸运的是，单细胞测序实验技术的不断进步有望提高数据可用性和质量，例如同时测量多种模式。

虽然数据质量和可用性是推进单细胞基因组学因果机器学习的关键因素，但它们并不是唯一需要克服的障碍。一个主要问题是缺乏能够扩展到生物相互作用复杂性的有效计算方法。许多现有的方法在有限数量的变量下运行，并不能提供基本的收敛保证。此外，缺乏将因果关系与跨模式数据集成相结合的方法。解决不同的空间和时间尺度也很重要，因为生物过程以不同的分辨率发生。

单细胞基因组学的因果机器学习有望为细胞决策提供一个机制视角。当因果变量可以解释时，例如基因及其信使RNA（mRNA）转录物的数量，模型可以产生生物学见解，然后通过有针对性的实验进行验证，从而产生新的科学知识。然而，由于多种因素的相互作用，验证复杂生物系统中的因果关系，如单细胞基因组学中研究的因果关系可能特别具有挑战性。此外，验证实验可用于更新和改进实验设计管道中的因果模型，然后可以指导设计最具信息量的实验。这种策略减少了对大量实验的需求和相关成本。

随着单细胞图谱的出现和扰动数据的增加，预计因果模型将成为知情实验设计和破译控制细胞决策的生物机制的关键工具。因果模型有可能通过揭示新的见解，加速发现更精确、更有效的新治疗干预措施，帮助科学家应对生物系统的巨大复杂性。

参考文献

[1] Tejada-Lapuerta A, Bertin P, Bauer S, Aliee H, Bengio Y, Theis FJ. Causal machine learning for single-cell genomics. Nat Genet. 2025 Mar 31. doi: 10.1038/s41588-025-02124-2.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC