TSCI:无效工具变量的因果推断R工具包
从观察性研究中推断因果治疗效果可能因未测量的混杂因素而存在内生性问题。一种常见的解决方法是使用工具变量(instrumental variable,IV)来分离与未测量混杂因素不相关的治疗效果的变异。然而,有效推断需要这些工具变量满足严格且无法检验的假设,即下述的 A2–A3 假设。基于协变量条件,工具变量:
l 假设 A1:需要与治疗变量有足够强的关联;
l 假设 A2:不能与未测量的混杂因素相关;
l 假设 A3:不能直接影响结果变量。
在实践中,假设 A2 和 A3 可能存在问题或无法检验,实证分析通常依赖外部知识来验证它们,这容易导致错误。因此,开发对假设无关的方法至关重要,因为错误地依赖这些假设可能会引入重大偏差并使推断无效。考虑违反假设 A2 或 A3 的工具变量,并将此类工具变量称为无效工具变量。为应对无效工具变量,以下是在 R 环境进行统计计算中使用的软件方法。
l 假设工具变量对处理的影响和工具变量对结果直接影响近似正交,相关软件可在 Bowden、Davey Smith 和 Burgess(2015)的补充材料中找到。
l 假设存在异方差误差的处理模型,相关软件可在 Tchetgen、Sun 和 Walter(2021)的 GitHub 存储库中找到。
l 从一组潜在无效的工具变量中选择有效的工具变量,相关软件可在 R 包 RobustIV中找到,该包实现了稳健因果推断,controlfunctionIV实现了控制函数方法,以及 CIIV实现了置信区间方法。
Stata模块 SIVREG中也提供了工具变量选择的一个实现。由Guo and Bühlmann提出的两阶段曲率识别(TSCI)方法不满足 A1–A3 的任何限制,并且所有工具变量都可能无效。其关键假设较为温和,即违反和工具变量与处理之间的关联来自不同的函数形式。也就是说,排除它们全部为线性等偶然情况。使用机器学习来学习可能非线性的处理模型。R 包 TSCI 提供了此方法的软件(https://CRAN.R-project.org/package=TSCI) 。
对于有效的工具变量,R 软件包存在用于从观测数据中估计处理效应的机器学习方法,包括 DoubleML以及具有额外正则化的机器学习方法 dmlalg。然而,它们在工具变量和处理效果之间使用线性拟合。为了在工具变量和处理效果之间引入非线性关系,Fan 和 Zhong提出了用于处理模型的非参数加性模型,该模型在 R 软件包 naivereg中实现。相比之下,TSCI 可以处理无效的工具变量,并使用机器学习方法来捕捉处理模型中工具变量和协变量之间的复杂非线性和交互项。
在工具变量多于处理因素的过度识别情况下,Sargan 检验可用于检验工具变量的有效性,例如 R 包 ivmodel。然而,TSCI 通过利用处理模型的非线性特性,为识别机制提供了有效性。
TSCI 的主要目标是提供一种用户友好的两阶段曲率识别的实现方法。TSCI 方法通过提供一种数据驱动的方法来检验工具变量的无效性,并提供一种对这种违规行为具有鲁棒性的效应量估计器,从而填补了工具变量(IV)回归文献中的一个重要空白。特别是,所有工具变量都可能无效。与现有的无效 IV 方法相比,TSCI 仅假设处理模型和 IV 违规在函数形式上有所不同。采用机器学习来拟合处理模型,这使我们能够捕捉复杂的非线性和交互作用。然而,如果使用机器学习,TSCI 不应被视为一个黑盒算法,因为需要专家知识来了解违规的潜在函数形式。
参考文献
[1] Carl, D., Emmenegger, C., Bühlmann, P., & Guo, Z. (2025). TSCI: Two Stage Curvature Identification for Causal Inference with Invalid Instruments in R. Journal of Statistical Software, 114(7), 1–21. https://doi.org/10.18637/jss.v114.i07
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1505295.html?mobile=1
收藏