博文

CausalBench挑战：单细胞扰动数据驱动的基因网络推理机器学习竞赛

已有 3188 次阅读 2025-6-6 21:30 |个人分类:科普|系统分类:科普集锦

CausalBench挑战：单细胞扰动数据驱动的基因网络推理机器学习竞赛

因果基因作用网络可视化为有向图，直观地阐明了细胞内基因的复杂相互作用，揭示了细胞特异性的细胞功能和调控。这些网络不仅有助于区分正常和异常的细胞过程，还可以阐明各种疾病中受干扰的途径。通过研究这些网络，获得了可以指导潜在药物靶点识别的见解。更重要的是，导出这些相互作用使研究人员能够预测靶点潜在的不安全下游效应，确保治疗干预既有效又安全。因此，从实验数据中准确推断这些网络的能力对生物研究和医学具有深远的意义。

单细胞转录组学的最新进展带来了直接靶向和抑制基因表达的工具。鉴于这些扰动代表了细胞系统中的实际干预，所产生的实验数据有望揭示决定细胞功能的潜在因果机制。因此，通过显式建模干预信号来利用干预数据的因果发现方法是推断基因作用网络的候选方法。Chevalley等人提出的CausalBench旨在使用单细胞微扰基因表达数据评估网络推理方法。CausalBench在最近两个规模空前的基于CRISPR的大规模公共扰动数据集上运行，并引入了与生物学相关的新评估指标。然而，早期评估显示了一个明显的惊喜。值得注意的是，尽管扰动数据增加，但前沿推理方法的性能仍趋于平稳。更令人惊讶的是，观察到结合扰动数据的方法并不优于不利用此类数据的方法，这表明扰动信号的效用很小，这与人们普遍认为扰动数据是解决现有方法因果推理任务中歧义所需的全部这一认为相反。

这些观察结果表明，干预性因果发现方法在合成数据和现实世界数据上的表现之间存在很大差距。事实上，许多研究人员优先考虑对合成数据集进行评估，因为有一个可用的Ground truth的吸引力，这似乎有助于方法比较。然而，正如CausalBench等基准评估最近强调的那样，报告的合成数据性能往往不能很好地转化为现实世界的设置。由于现实世界中成功的不可预测性，这种差异可能会让从业者望而却步。更令人不安的是盲目依赖合成数据结果的前景。鉴于这些模型在现实世界中的实际表现不佳，这可能会导致在时间、金钱和错失机会方面出现大量资源错位。

为了弥合这一差距并引领基因作用网络推理的进步，Chevalley等人组织了一项名为CausalBench 挑战（CBC2023）的机器学习社区挑战赛（图1，https://www.gsk.ai/causalbench-challenge/）。挑战背后的目的是降低参与门槛，激励机器学习社区致力于这项关键任务，并提升当前的技术水平。在最近的论文“The CausalBench challenge: A machine learning contest for gene network inference from single-cell perturbation data”中，作者们描述了参与者提出的方法如何显著提高了这项重要工作的最新性能。这集中体现了CBC2023等社区科学竞赛对促进科学突破的影响。在有限的时间内，目睹了可能需要更长时间才能进行的进展。鉴于基因网络推理在药物发现等关键领域的重要性，任何快速进展都可以产生深远的社会效益。

图1 CausalBench 挑战赛

为了促进新方法的应用以及未来的研究，方法实现已经开源。此外，参与者还提供了每种方法的详细报告，可在挑战赛的OpenReview会场获得https://openreview.net/group?id=GSK.ai/2023/CBC。总的来说，作者们做的事情总结为三点：

•证明机器学习竞赛可以成为让社区参与解决有影响力问题的有效工具。值得注意的是，许多参与者之前没有基因网络推理甚至生物学方面的经验。

•描述了参与者如何能够专注于技术创新。这是通过建立明确、有针对性的目标、合适的计算基础设施以及使用精心策划的基准作为开发平台来实现的。

•对最佳解决方案进行了彻底分析，以在基因网络推理任务中建立新的技术水平。通过提供关键思想的全面概述，讨论剩余的局限性，并使方法实现开源，以希望为这一重要领域的进一步重大进展铺平道路。

参考文献

[1] Chevalley M, Sackett-Sanders J, Roohani Y, et al. The CausalBench challenge: A machine learning contest for gene network inference from single-cell perturbation data. arXiv preprint arXiv:2308.15395, 2025. https://doi.org/10.48550/arXiv.2308.15395

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC