科学网-TSCI：无效工具变量的因果推断R工具包-张俊鹏的博文

TSCI：无效工具变量的因果推断R工具包

2025-10-10 08:56

阅读：2932

TSCI：无效工具变量的因果推断R工具包

从观察性研究中推断因果治疗效果可能因未测量的混杂因素而存在内生性问题。一种常见的解决方法是使用工具变量（instrumental variable，IV）来分离与未测量混杂因素不相关的治疗效果的变异。然而，有效推断需要这些工具变量满足严格且无法检验的假设，即下述的 A2–A3 假设。基于协变量条件，工具变量：

l 假设 A1：需要与治疗变量有足够强的关联；

l 假设 A2：不能与未测量的混杂因素相关；

l 假设 A3：不能直接影响结果变量。

在实践中，假设 A2 和 A3 可能存在问题或无法检验，实证分析通常依赖外部知识来验证它们，这容易导致错误。因此，开发对假设无关的方法至关重要，因为错误地依赖这些假设可能会引入重大偏差并使推断无效。考虑违反假设 A2 或 A3 的工具变量，并将此类工具变量称为无效工具变量。为应对无效工具变量，以下是在 R 环境进行统计计算中使用的软件方法。

l 假设工具变量对处理的影响和工具变量对结果直接影响近似正交，相关软件可在 Bowden、Davey Smith 和 Burgess（2015）的补充材料中找到。

l 假设存在异方差误差的处理模型，相关软件可在 Tchetgen、Sun 和 Walter（2021）的 GitHub 存储库中找到。

l 从一组潜在无效的工具变量中选择有效的工具变量，相关软件可在 R 包 RobustIV中找到，该包实现了稳健因果推断，controlfunctionIV实现了控制函数方法，以及 CIIV实现了置信区间方法。

Stata模块 SIVREG中也提供了工具变量选择的一个实现。由Guo and Bühlmann提出的两阶段曲率识别（TSCI）方法不满足 A1–A3 的任何限制，并且所有工具变量都可能无效。其关键假设较为温和，即违反和工具变量与处理之间的关联来自不同的函数形式。也就是说，排除它们全部为线性等偶然情况。使用机器学习来学习可能非线性的处理模型。R 包 TSCI 提供了此方法的软件（https://CRAN.R-project.org/package=TSCI）。

对于有效的工具变量，R 软件包存在用于从观测数据中估计处理效应的机器学习方法，包括 DoubleML以及具有额外正则化的机器学习方法 dmlalg。然而，它们在工具变量和处理效果之间使用线性拟合。为了在工具变量和处理效果之间引入非线性关系，Fan 和 Zhong提出了用于处理模型的非参数加性模型，该模型在 R 软件包 naivereg中实现。相比之下，TSCI 可以处理无效的工具变量，并使用机器学习方法来捕捉处理模型中工具变量和协变量之间的复杂非线性和交互项。

在工具变量多于处理因素的过度识别情况下，Sargan 检验可用于检验工具变量的有效性，例如 R 包 ivmodel。然而，TSCI 通过利用处理模型的非线性特性，为识别机制提供了有效性。

TSCI 的主要目标是提供一种用户友好的两阶段曲率识别的实现方法。TSCI 方法通过提供一种数据驱动的方法来检验工具变量的无效性，并提供一种对这种违规行为具有鲁棒性的效应量估计器，从而填补了工具变量（IV）回归文献中的一个重要空白。特别是，所有工具变量都可能无效。与现有的无效 IV 方法相比，TSCI 仅假设处理模型和 IV 违规在函数形式上有所不同。采用机器学习来拟合处理模型，这使我们能够捕捉复杂的非线性和交互作用。然而，如果使用机器学习，TSCI 不应被视为一个黑盒算法，因为需要专家知识来了解违规的潜在函数形式。

参考文献

[1] Carl, D., Emmenegger, C., Bühlmann, P., & Guo, Z. (2025). TSCI: Two Stage Curvature Identification for Causal Inference with Invalid Instruments in R. Journal of Statistical Software, 114(7), 1–21. https://doi.org/10.18637/jss.v114.i07

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC