聂广
[转载]概率论与数理统计的前世今生
2024-1-26 14:07
阅读:2411

资料来源:知乎,2022年12月20日;作者:一颗斯特拉

统计学是一门年轻的科学。虽然人类的统计实践随着计数活动产生、统计发展史可以追溯到距今5000多年前的远古原始社会,但是能使人统计实践上升到理论予以概括总结,即统计开始成为一门系统的科学,却是近代的事情,距今只有300余年的短暂历史。

统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现代推断统计学三种形态。20世纪初以来,科学技术迅猛发展,社会发生了巨大变化,统计学进入了快速发展时期。甚至有的科学家还把我们的时代叫做“统计时代”。显然,20世纪统计科学的发展及其未来,已经被赋予了划时代的意义。

统计学的发展,归功于优秀的统计学家们对难题的攻克、对经典的挑战。爱上统计学,从敬畏它的历史开始。

16世纪

意大利学者吉罗拉莫·卡尔达诺(Girolamo Cardano,1501.9.24-1576.9.21)开始研究掷骰子等赌博中的一些简单问题。他是“古典概率论”的创始人。

1646

法国数学家布莱斯·帕斯卡(Blaise Pascal,1623.6.19-1662.8.19)与法国数学家费马(Pierre de Fermat,1601.8.17-1665.1.12)通信,他们一起解决某一个上流社会的赌徒兼业余哲学家送来的一个问题,他弄不清楚掷3个骰子出现某种组合时为什么老是输钱。在解决这个问题的过程中,建立了概率论和组合论的基础,得出了关于概率论问题的一系列解法,奠定了近代概率论的基础。

1662

英国统计学家J.格兰特(John Graunt,1620-1674)组织调查伦敦的人口死亡率,并发表专著《从自然和政治方面观察死亡统计表》,格兰特还对保险统计、经济统计进行了数学研究,称其学问为“政治算术”。他发现人口出生率与死亡率相对稳定,提出了“大数恒静定律”,之后统计学的数学性质逐渐加重。

1713

瑞士数学家雅各布·伯努利(Jakob Bernoulli,1654.12.27-1705.8.16)的遗著《猜度术》出版了,其中他提出了概率论中的第一个极限定理,即“伯努利大数定律”,他第一个对经验频率的稳定性进行了严格地理论证明。他是使概率论成为数学的一个分支的奠基人。之后,俄国数学家、力学家切比雪夫(Пафну́тий Льво́вич Чебышёв,1821.5.26-1894.12.8)在一般条件下推导出了大数定律,称为“切比雪夫大数定律”。

1733

德国数学家和天文学家棣莫弗(Abraham De Moivre,1667.5.26-1754.11.27)研究伯努利大数定律中p=12的情形,他导出了n!的渐进公式(又称“斯特林公式”)。在求二项分布的渐进分布中发现了“正态分布”的密度函数,并在发表的论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布,标志着提出了正态分布。后来这一结果被皮埃·西蒙·拉普拉斯推广到一般的情形,后世称之为“棣莫弗-拉普拉斯中心极限定理”,这是概率论历史上的第二个极限定理、第一个中心极限定理。

1763

英国数理统计学家托马斯·贝叶斯(Thomas Bayes,1702-1761)发表《论机会学说问题的求解》,给出“贝叶斯定理”,从结果去对原因进行后验概率的计算,可视为最早的数学化的统计推断。[1]

Richard Price整理发表了贝叶斯的成果,提出“贝叶斯公式”。贝叶斯是对概率论与数理统计的早期发展有重要影响的两位人物之一(另一位是布莱斯·帕斯卡)。

1809

德国数学家约翰·卡尔·弗里德里希·高斯(Johann Carl Friedrich Gauß,1777.4.30-1855.2.23)发表了《绕日天体运动的理论》,这本书中包含一节有关“数据结合”的问题,在这一节中他讨论了误差分布理论,并且在此过程中独立导出了“正态分布”,推广了正态分布的应用,因此正态分布也被称为“高斯分布”。同年,高斯提出“最小二乘法”。

最近在看塔勒布的《反脆弱》,其中提到现代化。现代化的定义是人类大规模地治理环境,系统性地平整世界的凹凸不平以及控制波动和排除压力。现代化就是系统地将人类从充满随机性的生态环境中驱逐出去,包括物理的、社会的甚至认识论的生态环境。它依据的理念是社会是可以理解的,也是可以设计的,由人来设计,在这种理念下诞生了统计学原理以及可憎的钟形曲线。

1812

法国著名的天文学家和数学家皮埃·西蒙·拉普拉斯侯爵(Pierre-Simon marquis de Laplace,1749.3.23-1827.3.5)发表了《概率的分析理论》。在这一著作中,他首次明确规定了概率的古典定义(通常称为“古典概率”),并在概率论中引入了更有力的分析工具,如“差分方程”“母函数”等,从而实现了概率论由单纯的组合运算到分析方法的过渡,将概率论推向了一个新的发展阶段。此外,他的这篇巨著拯救了棣莫弗在1733年提出的超越时代但险些被历史遗忘的理论——中心极限定理。拉普拉斯扩展了棣莫弗的理论,提出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。直到十九世纪末中心极限定理才被世人所知。

1821

德国数学家高斯针对正态分布提出“最大似然估计”。

1837

法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson,1781.6.21- 1840.4.25)首次提出“泊松分布”。这个分布在更早些时候由伯努利家族的一个人描述过。

1863

阿贝(Abbe)首先提出χ2分布,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡尔·皮尔逊分别于1875年和1900年推导出来。

1875

英国科学家和探险家弗朗西斯·高尔顿(Francis Galton,1822.2.16 -1911.1.17)在朋友的帮助下作了有关香豌豆的实验,通过对所得数据的分析,他终于发现子代性状有向母代平均回归的现象,并通过自然采集人体指标数据验证了所得结论,首次提出“回归”的概念。

1888

弗朗西斯·高尔顿提出了“相关指数”的概念,并在此概念的基础上发展了一种用图形估计相关系数的方法,同年,他在一篇论文中给出了第一个正式的关于“相关系数”的数字,从数量的角度刻画了两个变量之间的相关程度。

俄罗斯的彼得堡学派引入“随机变量”。这标志着概率论由古典概率时期进入到近代概率。

1895

统计学家卡尔·皮尔逊(Karl Pearson,1857.3.27-1936.4.27)首次提出“偏态(skewness)”。[2]

1899

高尔顿出版数理统计著作《自然的遗传》,引入回归分析方法,他给出回归直线和相关系数的重要概念。

1900

德国数学家戴维·希尔伯特(David Hilbert,1862-1943)提出要建立概率的公理化定义以解决适合一切随机现象的概率的最一般的定义。

英国数学家、生物统计学家卡尔·皮尔逊提出了一个替换原理,利用这个原理而获得的估计量成为“矩估计”。同年,他引进了著名的“χ2拟合优度检验”。卡尔·皮尔逊是20世纪统计学的伟大奠基人,被称为20世纪统计学之父。他的工作在描述统计学向推断统计学发展的历史舞台上起到了承前启后的作用,为统计学随后的飞速发展奠定了坚实的基础。

1901

卡尔·皮尔逊提出“主成分分析”(多元统计分析的经典方法),但只是针对非随机变量。1933年由美国公认的统计学界、经济学界、数学界公认大师哈罗德·霍特林(Harold Hotelling,1895-1973)推广到随机变量。卡尔·皮尔逊提出与韦尔登、高尔顿一起创办了《生物统计》杂志,从而使数理统计学有了自己的一席之地,同时也给这门学科的发展完善以强大的推动力。

俄国数学家里雅普诺夫(Aleksandr Mikhailovich Lyapunov Алекса́ндрМиха́йл,1857.6.6-1918.11.3)用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。

1905

统计学家卡尔·皮尔逊(Karl Pearson,1857.3.27-1936.4.27)首次提出“峰态(kurtosis)”。

PS:不知道聪明的你有没有发现。皮尔逊在10年前首次提出偏态,又在提出矩估计、χ2拟合优度检验、主成分分析后提出峰态。是什么启发皮尔逊想到峰态呢?值得思考。

20世纪初

卡尔·皮尔逊(K.Pearson)提出“假设检验”,之后费希尔进行细化,并最终由奈曼(Neyman)和E.Pearson提出了较完整的假设检验理论。

1908

英国统计学家哥赛特(Gosset)在Biometrics杂志上以笔名Student发表了使他名垂统计史册的论文:均值的或然误差。在这篇文章中,提出了“t分布”。t分布的发现在统计学史上具有划时代的意义,打破了正态分布一统天下的局面,开创了小样本统计推断的新纪元。后来,费希尔注意到他证明中的漏洞,并于1922年给出了此问题的完整证明,并编制了t分布的分位数表。

1909年-1920年

丹麦数学家、电气工程师A.K.Erlang用概率论方法研究电话通话问题,开创了“排队论”。

1920

为了更准确地估计随机序列发展变化的规律,从20世纪20年代开始,学术界利用数理统计学原理分析时间序列。研究的重心从总结表面现象转移到分析序列值内在的关系上,由此开辟了一门应用统计学科——“时间序列分析”。

芬兰数学家贾尔·瓦尔德马·林德伯格(Jarl Waldemar Lindeberg,1876.8.4-1932.12.12)和法国数学家莱维(Paul Pierre Lévy,1886-1971)证明了在任意分布的总体中抽取样本,其样本均值的极限分布为正态分布,被称为“林德伯格-莱维(Lindeberg-Lévy)中心极限定理”。

1922

R.A.Fisher费希尔正式提出“充分统计量”,而其思想源于他与天文学家爱丁顿的有关估计标准差的争论中。同年,他在1821年高斯的基础上再次提出“最大似然估计”的想法,并证明了它的一些性质,而使得最大似然法得到了广泛的应用。

1924

美国贝尔实验室的沃特·阿曼德·休哈特(Walter A. Shewhart)博士在备忘录中向上级提出了使用“控制图”(Control Chart)的建议,“质量控制图”是将统计学原理应用于控制产品质量的图形方法。他是统计质量控制(SQC)之父。

英国统计与遗传学家、现代统计科学的奠基人之费希尔(Ronald Aylmer Fisher,1890-1962)提出“F分布”,并以其姓氏的第一个字母命名的。之后,他又提出“方差分析”(Analysis of Variance,简称ANOVA)。

费希尔(Ronald Aylmer Fisher,1890-1962)补充了卡尔·皮尔逊(K.Pearson)引进的χ2拟合优度检验。即在实际问题中,有时诸pi0还依赖于k个未知参数,这时皮尔逊建立的定理则再成立。费希尔证明了,在同样的条件下,可以先用MLE方法估计出这个k未知参数,然后再计算出pi0的估计值。这时类似的统计量当n→∞时,还是渐进服从卡方分布,不过自由度为r−k−1。

1928

奈曼(Neyman)和皮尔逊(E.Pearson)提出了“似然比检验”,它是一种应用较广的检验方法,在假设检验中的地位有如MLE在点估计中的地位。

1929

苏联数学家亚历山大·雅科夫列维奇·辛钦(Алекса́ндр Я́ковлевич Хи́нчин,1894.7.19-1959.11.18)在同分布的条件下推广了切比雪夫大数定律,称为“辛钦大数定律”。

贝伦斯从实际问题中提出若对,σ12,σ22没有什么信息,m,n也不很大,求μ1−μ2的精确置信区间。这是历史上著名的“贝伦斯-费希尔(Behrens-Fisher)问题”。

1933

苏联数学家柯尔莫哥洛夫(Kolmogorov,1903.4.25-1987.10.20)建立了测度论基础上的严格“概率论公理化体系”。使之成为和微积分一样的严格化数学体系,同时在这个体系中包含了经典和统计两种意义下的定义,因而不仅满足了数学本身的需求,也适应了自然科学乃至工程技术的要求。

美国数理统计学家、数理经济学家哈罗德·霍特林(Harold Hotelling,1895-1973)首先提出“主成分分析”。这是一种降维的思想,在损失很少信息的前提下,把多个指标利用正交旋转转化为几个综合指标的多元统计分析方法。

1934

美国统计学家J.奈曼(Jerzy Neyman,1894–1981)所创立了一种严格的区间估计理论——“置信区间”。置信系数是这个理论中最为基本的概念。通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。

1936

印度著名统计学家马哈拉诺比斯(Mahalanobis,1893-1972)提出了“马氏距离”。

1938

H.Wold在他的博士论文“A Study in the Analysis of Stationary Time Serious”中提出了著名的“Wold分解定理”,即对于任何一个离散平稳过程{xt},它都可以分解为两个不相关的平稳序列之和,其中一个为确定性的,另一个为随机性的。这个定理是现代时间序列分析理论的灵魂。Cramer在1961年证明这种分解思路同样可以用于非平稳序列。Cramer分解定理说明任何一个序列的波动都可以视为同时受到了确定性影响和随机性影响的作用。

1940

瑞典数学家克拉默尔(Cramer Harald,1893-1985)发表《统计学的数学方法》,运用测度论方法总结数理统计的成果,使现代数理统计趋于成熟。

1945

威尔科克森(F·Wilcoxin)建立“秩统计量”,秩和检验(rank sum test)又称顺序和检验,它是一种非参数检验(nonparametric test)。它不依赖于总体分布的具体形式,应用时可以不考虑被研究对象为何种分布以及分布是否以知,因而实用性较强。

1950

E.L.Lehmann和H.Scheff提出“完全统计量”的概念,并给出了寻找可估函数(即参数函数的无偏估计存在)的UMVUE的充分完全统计量法,即“Lehmann-Scheff定理”。

1955

斯泰因(Charles Stein,1920-2016)证明了当维数P大于2时,正态均值向量最小二乘估计的不可容性,即能够找到另一个估计在某种意义上一致优于最小二乘估计。斯泰因提出“Stein估计”,这是一种均匀压缩估计,是最简单、提出最早的一种有偏估计。

1960

Lindley等指出:当样本量足够大时,α0可以趋于1,而P接近于0,即利用P值检验和贝叶斯检验得到的结论相悖,因此也被称做“Lindley悖论”。

1961

James(Willard James)和Stein(Charles Stein,1920-2016)基于Stein估计提出了“James-Stein Estimation”开启了“收缩估计”(Shrinkage Estimation)的大门。人们开始故意引入偏差来提高整体表现,即均方误差(MSE)减小了。James-Stein对1961年的统计界产生了巨大的冲击,20世纪应用数学中最有影响力的部分、一直以来统计学家工具箱中首选方法——最大似然估计似乎不再那么宝贝。这就是说,在21世纪的应用中,最大似然估计已被证明是一种不充分和危险的工具。[3]

1962

Hoerl(A.E.Hoerl)针对多元共线性的问题,提出了一种叫岭回归的回归估计方法。该方法在1970年被详细阐述。

1965

马西(W.F.Massy)根据多元统计分析中的主成分分析(Principal Components Analysis,PCA)提出了“主成分回归”。

1970

Kennard(R.W.Kennard)系统发展了Hoerl,于1962年提出的“岭估计”,它是一种有偏估计,是对最小二乘估计的改进。自此以后,这种估计的研究和应用受到了广泛的关注。岭估计是对最小二乘估计向原点作压缩,一般来说它们是对β^各分量的不均匀压缩。此前提到的Stein估计是一种均匀压缩估计。

1977

哈佛大学数学家A.P.Dempster等人提出“EM算法”,用于含有隐变量的概率模型参数的极大似然估计。

1978

Koenker和Bassett最早提出“分位数回归”(Quantile Regression)。

1995

新西兰奥克兰大学的Ross Ihaka和Robert Gentleman在S语言(S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言)的基础上开发了一个新系统,由于这两位科学家的名字首字母都是R,所以该系统软件被取名为“R”。

1996

Tibishirani提出变量筛选方法“Lasso”(Least absolute shrinkage and selectiono perator)。

参考资料

华中科技大学. 统计学的历史. http://maths.hust.edu.cn/info/1187/3354.htm

现代统计学发展的一条主线——karl pearson的生平、思想及其成就 http://www.docin.com/p-1394192044.html

3  Bradley Efron & Trevor Hastie (2016). Computer Age Statistical Inference: Algorithms, Evidence and Data Science. Cambridge University Press.

转载本文请联系原作者获取授权,同时请注明本文来自聂广科学网博客。

链接地址:https://wap.sciencenet.cn/blog-279293-1419416.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?