张俊鹏
因果发现标准数据:在真实应用中对因果发现进行基准
2025-1-8 21:12
阅读:916

因果发现标准数据:在真实应用中对因果发现进行基准

在许多科学研究中,研究人员不仅对识别统计模式感兴趣,而且对理解控制复杂系统的潜在因果关系感兴趣。他们想要回答因果关系问题,如“改变这个系统的特定变量会产生什么影响?”这种问题不能用纯粹的统计模型来回答。例如,在医疗保健领域,了解因果关系对于确定治疗效果至关重要,从而改善患者的治疗效果并提高资源分配效率。如果使用纯粹的统计模型,该模型可能依赖于虚假的相关性,从而导致错误的结论。因果发现旨在直接从数据中恢复因果关系,使我们能够回答因果问题。虽然因果推理具有挑战性,但大多数科学领域都可以从这种能力中受益。

话虽如此,因果发现领域主要是方法驱动的,而不是应用驱动。社区不断开发新方法和算法,但仍然依赖于玩具数据集和简单指标进行评估,阻碍了它的发展和对真实问题的适用性。最近,大量关于因果发现的调查涵盖了现有的因果发现方法,但没有人关注这些方法应用的数据集和实际应用。然而,使用良好的数据集和基准测试与拥有良好的算法同样重要。例如,最近的ImageNet 等数据集的深度学习热潮及其相关挑战中至关重要。除了选择数据集之外,还需要更深入地考虑因果发现可以并且应该应用的问题类型。过度依赖简单的设定会使该领域与真实世界的挑战脱节。如果没有实际应用,因果关系发现就有可能仅仅成为理论故事。

最近,Brouillard等人发表一篇因果发现标准数据和实际应用的综述论文。这篇综述的目标是激发社区更多的应用驱动。他们通过调查最近的文献,突出需要改进的关键方法缺陷,以及确定似乎成熟的领域,以受益于因果发现的应用。首先,通过进行系统回顾,他们发现:因果发现领域仍然依赖于合成数据集和真实世界数据集的低多样性(图1)。此外,在大多数研究中,不充分的指标被用于评估。其次,他们展示了简单合成数据集的许多替代方案,包括伪真实数据集和真实数据集,并且提供了一些用于评估新因果发现方法的常用数据集列表(https://github.com/kurowasan/cd_datasets)。最后,他们强调了几个关键的科学领域(生物学、神经科学和地球科学),在这些领域产生了大量的真实数据,因果关系发现应该是这些领域的短期目标(图2)。总体而言,真实世界应用经常挑战既定因果发现假设,并可能成为创新的催化剂。他们强调了在实际场景中进行基础研究的重要性,要利用真实数据集而不是纯粹的合成数据集。

image.png

1 数据集类型的论文分布

image.png

2 伪真实和真实数据集的公共领域 

作者们系统地调查了因果发现研究的最新工作,重点关注这些研究中使用的数据集和评估方法。研究结果显示,自2019年以来,情况并没有太大变化,这表明该领域早该发生重大变化了。大多数研究仍然只使用结构指标,而不是干预指标。一些研究只包括合成数据集,而一些研究确实包括真实数据集,它们通常依赖于具有一些主要局限性的相同数据集。此外,大多数因果发现方法依赖于真实数据集很少满足的强假设。总的来说,因果发现在可以直接应用之前仍有相当大的进展。应用者倾向于意识到它的局限性,他们务实地使用它(例如作为一种探索工具)而不是作为一种推导的因果真理手段。最后,虽然作者门专注于因果发现,但他们讨论了在因果表示学习的新兴领域中也存在类似的问题,其中主要使用简单的玩具数据集,并且该领域的常见假设可能在现实世界中不成立。因此建议并敦促该领域的研究人员也使用更真实的数据集。 

作者们还更详细地探讨了因果发现中使用的真实数据集。一个关键观察结果是,近年来,这类数据集的可用性越来越高,同时也出现了更大、更详细的真实数据集的趋势。在生物学领域,由于新技术进步,生物分子网络数据集包含了比以前更多的干预措施。这些数据集为因果发现的进步提供了宝贵的机会。此外,现实世界领域为推动因果发现方法的边界提供了肥沃的土壤,因为它们挑战了现有的假设。 

需要明确的是,合成数据集是有用的,但它们应该得到对伪真实和真实数据集更现实评估的补充。当干预数据存在时,就存在对真实数据集的良好定量评估。然而,在生物学以外的许多领域,干预数据很难获得,因此伪真实数据集可能更充分。它们保留了大多数合成数据集的优点,同时更加真实。然而,伪真实数据集的创建应该始终考虑真实数据集及其违反的假设。总之,这篇综述汇编了模拟数据和经验数据集的广泛列表,其目标是激励研究人员多样化使用他们的数据集,超越合成数据限制,在因果发现努力中拥抱现实世界的复杂性和丰富性。 

参考文献

[1] Brouillard P, Squires C, Wahl J, et al. The Landscape of Causal Discovery Data: Grounding Causal Discovery in Real-World Applications. arXiv preprint arXiv:2412.01953, https://doi.org/10.48550/arXiv.2412.01953, 2024. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1467955.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?