赖江山
变量筛选后的模型只适用于预测而不完全适用于因果推断
2024-3-29 21:29
阅读:560
在生态学研究中,当面临解释变量众多的复杂情境时,研究者们往往会倾向于通过变量筛选来简化模型,进而进行因果关系的解读。然而,这种做法其实存在极大的风险。简而言之,尽管经过筛选的模型可能在预测效率上达到了理想状态,但这并不能保证所保留的变量就是对响应变量的影响是真实的。换句话说,那些被筛选掉的变量,其对y的影响可能并不亚于甚至超过被保留的变量,只是由于与被保留的变量高度共线性而模型不需要这些变量也一样达到同等的拟合度(比如校正R2或AIC)而被筛选掉。

我个人的观点是,若模型的目的是用于解释(即因果关系解读)而非预测,那么变量的筛选过程应当建立在专业知识之上,而非仅仅依赖于程序化的自动筛选方法。如果实在没法专业知识来选择,只能通过程序化做变量筛选,事后也得用专业的知识来解读模型的因果关系,而不能简单说通过程序化的“变量筛选”来作为因果关系的依据。这一看似浅显易懂的原则,实际上却令许多生态学的学子乃至资深科研人员感到困惑和迷茫。20227月加拿大达尔豪斯大学两名学者Arif MacNeil在“Ecology Letter”上发表的一篇观点文章“Predictive models aren't for causal inference”,以深入浅出的语言和并不复杂的模拟数据,对这一问题进行了深刻的剖析。文章不仅指出了当前变量筛选方法的局限性和误导性,还提出了一种基于专业知识的后门准则Backdoor Criterion)来指导变量的筛选过程,从而更为准确地确定结构方程模型(SEM)的路径。这一创新性的方法,有望为生态学研究的模型构建带来更高的准确性和可靠性。此文篇幅不长,语言也很简单,但其所蕴含的深刻见解和实用方法,无疑值得每一位生态学者仔细研读。https://onlinelibrary.wiley.com/doi/full/10.1111/ele.14033

转载本文请联系原作者获取授权,同时请注明本文来自赖江山科学网博客。

链接地址:https://wap.sciencenet.cn/blog-267448-1427480.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?