2021年,哥伦比亚大学的统计大师Andrew Gelman和芬兰阿尔托大学的计算机科学教授Aki Vehtari在Journal of the American Statistical Association杂志上详细盘点了过去50年中最重要的统计学思想,值得推荐学习。Andrew Gelman大师同时也是统计宝典"Data Analysis Using Regression and Multilevel/Hierarchical Models"一书的作者,影响力巨大。
作者将过去50年的重要统计思想归纳为以下八类(按出现顺序,非重要性排序,由DeepSeek整理,鄙人略作点评,很多我也不了解,建议大家细读原文):
1. 反事实因果推断(Counterfactual Causal Inference)
- 核心:通过潜在结果框架(potential outcomes)和结构模型,在观察性数据中进行因果推断。
- 关键贡献:明确因果假设(如可忽略性、工具变量),统一了经济学、流行病学等领域的因果分析方法。
- 代表方法:Rubin因果模型、DAG(有向无环图)、工具变量法。
2. Bootstrapping & Simulation-Based Inference
- 核心:通过重采样(如Bootstrap)或模拟(如参数化Bootstrap)估计统计量的分布,减少对解析解的依赖。 Bootstrapping 确实是一种简单却实用的思想,可解决很多数据结构上的问题。
- 意义:推动了非参数统计的发展,适用于复杂数据结构和模型。
3. 过参数化模型与正则化(Overparameterized Models & Regularization)
- 核心:通过正则化(如Lasso、岭回归)或贝叶斯先验,控制高维模型的复杂度,平衡灵活性与过拟合。 机器学习就是过参数化模型,相对于一般的回归分析,没有模型过度拟合问题。
- 应用:支持向量机、神经网络、深度学习等。
4. 贝叶斯多级模型(Bayesian Multilevel Models)
- 核心:通过分层结构(如随机效应)实现部分池化(partial pooling),结合组内与组间信息。 所谓层次模型,就是混合效应模型,近年来几乎已经称为一种通用的统计工具,几乎全面接管了所有通用型的数据分析工作。
- 应用:纵向数据分析、具有层次结构的数据分析,Meta分析。层次模型已经成了高质量期刊上Meta分析论文的标配了。
5. 通用计算算法(Generic Computation Algorithms)
- 核心:开发高效算法以支持复杂模型的推断,如MCMC(除了慢,似乎没有其他缺点)、EM算法、变分推断等。
- 影响:使贝叶斯方法、高维模型等在实践中可行。
6. 自适应决策分析(Adaptive Decision Analysis)
- 核心:结合统计学习与动态决策优化,如强化学习、贝叶斯优化。
- 应用:在线学习、A/B测试、机器人控制。
7. 稳健推断(Robust Inference)
- 核心:发展对模型假设偏离不敏感的方法,如稳健标准误、部分识别。
- 意义:提升模型在现实数据中的可靠性。
8. 探索性数据分析(Exploratory Data Analysis, EDA)
核心:通过可视化(如Tukey的箱线图、Tufte的信息图形)和交互式分析,发现数据模式而非验证假设。 先看数据格局,再找规律,作图就显得尤为重要了。
工具:R语言、ggplot2包、Jupyter Notebook等。
全文链接:https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081
转载本文请联系原作者获取授权,同时请注明本文来自张霜科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3442043-1478457.html?mobile=1
收藏