zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

CausalBench挑战:单细胞扰动数据驱动的基因网络推理机器学习竞赛

已有 434 次阅读 2025-6-6 21:30 |个人分类:科普|系统分类:科普集锦

CausalBench挑战:单细胞扰动数据驱动的基因网络推理机器学习竞赛 

因果基因作用网络可视化为有向图,直观地阐明了细胞内基因的复杂相互作用,揭示了细胞特异性的细胞功能和调控。这些网络不仅有助于区分正常和异常的细胞过程,还可以阐明各种疾病中受干扰的途径。通过研究这些网络,获得了可以指导潜在药物靶点识别的见解。更重要的是,导出这些相互作用使研究人员能够预测靶点潜在的不安全下游效应,确保治疗干预既有效又安全。因此,从实验数据中准确推断这些网络的能力对生物研究和医学具有深远的意义。 

单细胞转录组学的最新进展带来了直接靶向和抑制基因表达的工具。鉴于这些扰动代表了细胞系统中的实际干预,所产生的实验数据有望揭示决定细胞功能的潜在因果机制。因此,通过显式建模干预信号来利用干预数据的因果发现方法是推断基因作用网络的候选方法。Chevalley等人提出的CausalBench旨在使用单细胞微扰基因表达数据评估网络推理方法。CausalBench在最近两个规模空前的基于CRISPR的大规模公共扰动数据集上运行,并引入了与生物学相关的新评估指标。然而,早期评估显示了一个明显的惊喜。值得注意的是,尽管扰动数据增加,但前沿推理方法的性能仍趋于平稳。更令人惊讶的是,观察到结合扰动数据的方法并不优于不利用此类数据的方法,这表明扰动信号的效用很小,这与人们普遍认为扰动数据是解决现有方法因果推理任务中歧义所需的全部这一认为相反。 

这些观察结果表明,干预性因果发现方法在合成数据和现实世界数据上的表现之间存在很大差距。事实上,许多研究人员优先考虑对合成数据集进行评估,因为有一个可用的Ground truth的吸引力,这似乎有助于方法比较。然而,正如CausalBench等基准评估最近强调的那样,报告的合成数据性能往往不能很好地转化为现实世界的设置。由于现实世界中成功的不可预测性,这种差异可能会让从业者望而却步。更令人不安的是盲目依赖合成数据结果的前景。鉴于这些模型在现实世界中的实际表现不佳,这可能会导致在时间、金钱和错失机会方面出现大量资源错位。 

为了弥合这一差距并引领基因作用网络推理的进步,Chevalley等人组织了一项名为CausalBench 挑战CBC2023)的机器学习社区挑战赛(图1https://www.gsk.ai/causalbench-challenge/)。挑战背后的目的是降低参与门槛,激励机器学习社区致力于这项关键任务,并提升当前的技术水平。在最近的论文“The CausalBench challenge: A machine learning contest for gene network inference from single-cell perturbation data”中,作者们描述了参与者提出的方法如何显著提高了这项重要工作的最新性能。这集中体现了CBC2023等社区科学竞赛对促进科学突破的影响。在有限的时间内,目睹了可能需要更长时间才能进行的进展。鉴于基因网络推理在药物发现等关键领域的重要性,任何快速进展都可以产生深远的社会效益。 

image.png 

1 CausalBench 挑战赛 

为了促进新方法的应用以及未来的研究,方法实现已经开源。此外,参与者还提供了每种方法的详细报告,可在挑战赛的OpenReview会场获得https://openreview.net/group?id=GSK.ai/2023/CBC。总的来说,作者们做的事情总结为三点:

•证明机器学习竞赛可以成为让社区参与解决有影响力问题的有效工具。值得注意的是,许多参与者之前没有基因网络推理甚至生物学方面的经验。

•描述了参与者如何能够专注于技术创新。这是通过建立明确、有针对性的目标、合适的计算基础设施以及使用精心策划的基准作为开发平台来实现的。

•对最佳解决方案进行了彻底分析,以在基因网络推理任务中建立新的技术水平。通过提供关键思想的全面概述,讨论剩余的局限性,并使方法实现开源,以希望为这一重要领域的进一步重大进展铺平道路。 

参考文献

[1] Chevalley M, Sackett-Sanders J, Roohani Y, et al. The CausalBench challenge: A machine learning contest for gene network inference from single-cell perturbation data. arXiv preprint arXiv:2308.15395, 2025. https://doi.org/10.48550/arXiv.2308.15395 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png 



https://wap.sciencenet.cn/blog-571917-1488792.html

上一篇:社区检测算法的广泛基准测试
下一篇:scRDEN:单细胞动态基因等级差异表达网络和鲁棒轨迹推断
收藏 IP: 116.249.20.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-6-8 10:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部