张霜
50年来,哪些统计思想足以位列仙班?
2025-3-20 11:47
阅读:705

2021年,哥伦比亚大学的统计大师Andrew Gelman和芬兰阿尔托大学的计算机科学教授Aki Vehtari在Journal of the American Statistical Association杂志上详细盘点了过去50年中最重要的统计学思想,值得推荐学习。Andrew Gelman大师同时也是统计宝典"Data Analysis Using Regression and Multilevel/Hierarchical Models"一书的作者,影响力巨大。

image.png

      作者将过去50年的重要统计思想归纳为以下八类(按出现顺序,非重要性排序,由DeepSeek整理,鄙人略作点评,很多我也不了解,建议大家细读原文):

1. 反事实因果推断(Counterfactual Causal Inference) 

   - 核心:通过潜在结果框架(potential outcomes)和结构模型,在观察性数据中进行因果推断。  

   - 关键贡献:明确因果假设(如可忽略性、工具变量),统一了经济学、流行病学等领域的因果分析方法。  

   - 代表方法:Rubin因果模型、DAG(有向无环图)、工具变量法。

2. Bootstrapping & Simulation-Based Inference

   - 核心:通过重采样(如Bootstrap)或模拟(如参数化Bootstrap)估计统计量的分布,减少对解析解的依赖。  Bootstrapping 确实是一种简单却实用的思想,可解决很多数据结构上的问题。

   - 意义:推动了非参数统计的发展,适用于复杂数据结构和模型。

3. 过参数化模型与正则化(Overparameterized Models & Regularization)

   - 核心:通过正则化(如Lasso、岭回归)或贝叶斯先验,控制高维模型的复杂度,平衡灵活性与过拟合。 机器学习就是过参数化模型,相对于一般的回归分析,没有模型过度拟合问题。

   - 应用:支持向量机、神经网络、深度学习等。

4. 贝叶斯多级模型(Bayesian Multilevel Models)  

   - 核心:通过分层结构(如随机效应)实现部分池化(partial pooling),结合组内与组间信息。  所谓层次模型,就是混合效应模型,近年来几乎已经称为一种通用的统计工具,几乎全面接管了所有通用型的数据分析工作。

   - 应用:纵向数据分析、具有层次结构的数据分析,Meta分析。层次模型已经成了高质量期刊上Meta分析论文的标配了

5. 通用计算算法(Generic Computation Algorithms)

   - 核心:开发高效算法以支持复杂模型的推断,如MCMC(除了慢,似乎没有其他缺点)、EM算法、变分推断等。  

   - 影响:使贝叶斯方法、高维模型等在实践中可行。

6. 自适应决策分析(Adaptive Decision Analysis)

   - 核心:结合统计学习与动态决策优化,如强化学习、贝叶斯优化。  

   - 应用:在线学习、A/B测试、机器人控制。

7. 稳健推断(Robust Inference)

   - 核心:发展对模型假设偏离不敏感的方法,如稳健标准误、部分识别。

   - 意义:提升模型在现实数据中的可靠性。

8. 探索性数据分析(Exploratory Data Analysis, EDA)

   核心:通过可视化(如Tukey的箱线图、Tufte的信息图形)和交互式分析,发现数据模式而非验证假设。  先看数据格局,再找规律,作图就显得尤为重要了。

   工具:R语言、ggplot2包、Jupyter Notebook等。

全文链接:https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081

Meta分析广告小插图-202503.png

转载本文请联系原作者获取授权,同时请注明本文来自张霜科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3442043-1478457.html?mobile=1

收藏

分享到:

上一篇
下一篇
当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?