zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

估计因果效应的局部因果发现

已有 1507 次阅读 2023-4-24 11:31 |个人分类:科普|系统分类:科普集锦

估计因果效应的局部因果发现 

根据观测数据估计平均治疗效果(ATE)通常需要结构知识,可以用因果图形式表示。虽然有丰富的文献提供了在已知因果图的情况下识别和估计因果效应的方法,但许多应用程序要求我们研究当因果图未知时,ATE可能取的值。在这种情况下,我们可以(i)进行因果发现,使用观测数据来识别马尔可夫等价类(MEC)图;以及(ii)为MEC中的每个图估计期望的ATE,从而识别可能的ATE值集合。 

因果发现已经在各种假设下进行了研究。在因果充分性(即没有未观察到的变量)和忠实性的情况下,PC算法可以从观测数据中识别真实图的MEC。然而,完全表征MEC在计算上可能是昂贵的。针对这一问题,Maathuis等人证明了利用节点周围的局部结构足以识别ATE值集合。利用这一见解,现有的局部因果发现算法能发现PC可能发现的任何节点的父母和子女节点。这些方法顺序地发现处理周围的局部结构、邻居等等,直到所有邻居都被定向(或者没有剩余的邻居可以被定向)时终止。 

本次,又介绍一种局部因果发现算法(Local Discovery with Eagle Collider ChecksLDECC),它提供了一种替代方法来定位变量X的父母节点。最初,LDECCX周围执行局部发现以发现其邻居。随后,在给定图的状态下,LDECC选择与PC相同的条件独立性(CI)测试。但有一个关键的例外:每当找到两个节点ABLDECC立即检查当X被添加到条件集时,它们是否变得依赖。如果测试揭示了依赖性,那么X必须是位于从AX或从BX的某条路径的交叉点上的对撞机或对撞机的后代。在此基础上,LDECC可以将X邻居的最小子集定向为{AB}d分离。在忠实条件下,所确定的ATE集等于ATE值集合。 

LDECC使用一种简单的算法来表示现有局部因果发现算法的基本思想,称之为顺序发现(SD),该算法在局部顺序运行PC算法以进行局部结构学习。虽然现有算法在细微方面与SD不同,但它们与SD共享关键步骤,使LDECC能够与这类现有算法进行比较。LDECC在计算需求方面与SD互补优势。因此,可以可以进行有益的组合(通过并行运行LDECCSD,并在任一算法终止时终止),如果任一算法的运行时间是次指数的,则可以避免指数运行时间,从而扩展了可以进行有效局部发现的图类别。 

此外,根据其忠实性要求,对SDLDECC进行了比较。结果表明,SDPC在识别ATE值集合时需要的假设比识别整个MEC时需要的假定弱。还发现,LDECCSD依赖于不同的忠诚度假设。有几类忠实违规行为,其中一种算法会正确识别ATE值集合,而另一种则不会。在假设算法的忠实性假设之一是正确的情况下,提出了一个恢复ATE集上保守界的过程。为了明确这一界限,作者们证明了LDECCSD可以结合起来构建一个程序,该程序可以在严格较弱的假设下识别ATE值集合,再次强调了LDECC相对于现有方法的互补性。最后,作者们在合成图(图1)和半合成图(图2)上实证测试了LDECC,并表明它的性能与SD(和PC)相当,并且通常比SD运行更少的条件独立性(CI)测试。

image.png

1 在合成线性高斯图的比较结果

 

image.png

2 在半合成MAGIC-NIAB线性高斯图的比较结果 

详细算法描述可以参见文献[1]LDECC相关代码可以从https://github.com/acmi-lab/local-causal-discovery中获取。

 

参考文献

[1] Gupta S, Childers D, Lipton Z C. Local Causal Discovery for Estimating Causal Effects. arXiv preprint arXiv:2302.08070, 2023.

 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

 

image.png




https://wap.sciencenet.cn/blog-571917-1385577.html

上一篇:局部搜索以高效估计因果效应
下一篇:基于深度学习融合多模态数据以发现肿瘤生物标志物
收藏 IP: 39.129.48.*| 热度|

1 檀成龙

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-1 06:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部