上一篇中,通过赌徒谬误介绍了概率论中的大数定律。大数定律说的是当随机事件重复多次时频率的稳定性,随着试验次数的增加,事件发生的频率趋近于预期的“概率”。但大数定律并未涉及概率之分布问题。首先用如下例子来说明“概率分布”是什么意思。
高尔顿钉板试验
弗朗西斯·高尔顿(Sir Francis Galton,1822年-1911年)是英国著名的统计学家、心理学家和遗传学家。他是达尔文的表弟,虽然不像达尔文那样声名显赫,但也不是无名之辈。并且,高尔顿幼年是神童,长大是才子,九十年的人生丰富多彩,是个名副其实的博学家。其涉猎范围广泛,研究水平颇深,纵观科学史,在其同时代科学家中,能望其项背之人寥寥可数【1】。
在达尔文发表了《物种起源》之后,高尔顿也将研究方向转向生物及遗传学,他第一个对同卵双胞胎进行研究,论证了指纹的永久性和独特性。他从遗传的观点研究人类智力并提出“优生学”,是第一个强调把统计学方法应用到生物学中去的人,他设计了一个钉板实验,希望从统计的观点来解释遗传现象。
图1:高尔顿钉板实验
如图1中所示,木板上订了数排(n排)等距排列的钉子,下一排的每个钉子恰好在上一排两个相邻钉子之间,从入口中处放入若干直径略小于钉子间距的小球,小球在下落的过程中碰到任何钉子后,都将以1/2的概率滚向左边,也以 1/2的概率滚向右边,碰到下一排钉子时又是这样。如此继续下去,直到滚到底板的格子里为止。试验表明,只要小球足够多,它们在底板堆成的形状将近似于一个钟形的高斯曲线。
为什么这儿出现了一个钟形曲线呢?这与古典概率论中最重要的描述概率分布的“中心极限定理”有关。
概率分布函数
随机变量在实验中取值形成的分布称为频率分布。随着试验次数增加,频率趋近概率,频率分布的极限则为概率分布。比如说,我们将一枚均匀硬币抛4次,正反(1、0)出现的可能性有16种(可用从0000到1111的16个二进制数表示),大数定律中涉及的概率p=0.5,指的是这16种情形的平均值。而所谓“分布”,则是描述这16种可能性在概率图中分别所处的位置。从理论上说,这16种可能性中, 1出现0、1、2、3、4次的概率,分别是1/16、4/16、6/16、4/16、1/16。图2的左图显示的便是当实验次数n=4时,出现1的概率对不同“出现次数”的分布情形。
图2:多次抛硬币得到正面的概率分布
显而易见,抛硬币概率的分布图形随着抛丢次数n的变化而变化。抛硬币实验n次的概率分布称为二项分布。对对称硬币来说,二项分布是一个取值对应于二项式系数的离散函数,也就是帕斯卡三角形中的第n列。当实验次数n增大,可能的排列数也随之增多,比如,当n=4时对应于(1、4、6、4、1);当n=5时,对应于帕斯卡三角形中的第5列(1、5、10、10、5、1)……,然后再依次类推下去。图2的右图中,画出了n=5、20、50的概率分布图。
二项分布不一定是对称的。图2之图形为对称,因为所示是均匀硬币(p=0.5)的概率分布,如果正面出现的概率p不等于0.5,即不是理想的均匀硬币的话,得到正反两面的几率不同,概率分布图便可能不对称。图3显示的是p=0.1到1变化,n=20的概率分布图。
图3:不对称二项分布
除了二项分布之外,还有许多其它类型的概率分布诸如泊松分布、指数分布、几何分布等。此外,对连续型随机变量,概率分布函数的概念用概率密度函数代替。
最常见的概率密度函数是正态分布。
中心极限定理
图2图3所示的,是“概率”分布图,不是真实实验所得的“频率”分布图。中心极限定理说的不仅仅是当实验次数很大时“频率”逼近“概率”的问题,而更为重要的是:当n足够大时,抛硬币的二项分布逼近一个特别的理想分布:正态分布,也被称为高斯分布,因其曲线呈钟形,因此人们又经常称之为钟形曲线。
中心极限定理指的是分别适用于不同条件的一组定理,但基本可以用一句通俗的话来概括它们:大量相互独立的随机变量,其求和后的平均值以正态分布(即钟形曲线)为极限。
考虑图1所示的高尔顿钉板实验中某一个小球下落的过程:小球在下落过程中碰到n个钉子上,每次都等效于一次“抛公平硬币”类型的随机变量。也就是说,一个小球从顶部到底部的过程,等效于n次抛硬币之和。n个钉子中的每一个钉子,将小球以同等的概率弹向左边或右边,小球最后到达的位置,是这n个“左右”随机变量相加后的平均位置。不难看出,这个平均值落在中心处的概率最大(即小球聚集最多),但也可能向左或向右偏离1格、2格……,偏离越大,小球的数目越少,不同位置的不同小球数便形成了一个“分布”,中心极限定理则是从数学上证明了,这个分布的极限是正态分布。
中心极限定理最早由法国数学家棣莫弗(de Moivre, 1667年1754年)在1718年左右发现。他为解决朋友提出的一个赌博问题而去认真研究二项分布。发现当实验次数增大时,二项分布(p=0.5)趋近于一个看起来呈钟形的曲线。后来,著名法国数学家拉普拉斯对此作了更详细的研究,并证明了p不等于0.5时二项分布的极限也是高斯分布。之后,人们将此称为棣莫弗-拉普拉斯中心极限定理【2】。
再后来,中心极限定理的条件逐渐从二项分布推广到独立同分布随机序列,以及不同分布的随机序列。因此,中心极限定理不是只有一个定理,而是成为研究何种条件下独立随机变量之和的极限分布为正态分布的一系列命题的统称。
不得不承认中心极限定理的奇妙。在一定条件下,各种随意形状概率分布生成的随机变量,它们加在一起的总效应,是符合正态分布的。这点在统计学实验中特别有用,因为实际上的随机生物过程或物理过程,都不是只由一个单独的原因产生的,它们受到各种各样随机因素的影响。然而,中心极限定理告诉我们:无论引起过程的各种效应的基本分布是什么样的,当实验次数 n 充分大时,所有这些随机分量之和近似是一个正态分布的随机变量(图4)。
在实际问题中,常常需要考虑许多随机因素所产生总影响。例如,许多因素决定了人的身高:营养、遗传、环境、族裔、性别等等,这些因素的综合效果,使得人的身高基本满足正态分布。另外,在物理实验中,免不了有误差,而误差形成的原因五花八门,各种各样。如果能够分别清楚产生误差的每种单一原因,误差的分布曲线可能不是高斯的,但是,所有误差加在一起时,实验者通常得到一个正态分布。
图4:中心极限定理
为了更为直观地理解大数定律和中心极限定理,在图5中,将抛硬币所得的结果用数值表示(正面=1,反面=-1)。如此赋值以后,大数定律指的是:抛丢硬币多次(n趋近无限大)后,结果的平均值将趋近于0,即正反面出现次数相等,其数值相加而互相抵消了。中心极限定理则除了考虑平均值(=0)之外,还考虑结果的分布情形:如图5b所示,如果只抛1次,出现正面(1)和反面(-1)的概率相等,对应于公平硬币的等概率分布,平均值为0。当投掷次数n增加,平均值的极限值仍然保持为0,但点数和之分布情形变化了,n趋近无限时,分布趋于正态分布。
图5:大数定律和中心极限定理
大量的统计实验结果告诉我们:钟形曲线随处可见。我们的世界似乎被代表正态分布的“钟形”包围着,很多事物都是服从正态分布的:人的高度,雪花的尺寸,测量误差,灯泡的寿命,IQ分数,面包的重量,学生的考试分数等等。十九世纪的著名数学家庞加莱曾经说过【3】:“每个人都相信正态法则,实验家认为这是一个数学定理,数学家认为这是一个实验事实。”大自然造物的美妙深奥,鬼斧神工,往往使人难以理解。钟形分布曲线无处不在,其奥秘便是来自于中心极限定理。
中心极限定理使得正态分布既成为统计理论的重要基础,又是实际应用的强大工具。
中心极限定理似乎是解释了处处是正态分布的原因,但仔细一想又不明白了:为什么大自然这个“上帝”创造出来一个中心极限定理呢?科学之所以如此有趣就正是在于这种连续不断的“为什么”激发出来的好奇心,一个又一个的追问和困惑吸引我们对世界万物进行永无止境的探索!
中心极限定理与物理学中的最小作用量原理有关,后者无疑是大自然最迷人最美妙的原理之一。它的简洁性和普适性令人震撼,就像歌德的诗句中所描述的:“写这灵符的是何等神人?使我内心的沸腾化为安宁,寸心充满欢愉!它以玄妙的灵机,为我揭开自然的面巾!”大自然犹如一个经济学家,总是使得物理系统的作用量取极值。在学习概率和统计时,中心极限定理或许也带给我们类似的震撼和惊喜。事实上,中心极限定理也与一个极值“原理”有关,那是“熵最大原理”。正态分布是在所有已知均值及方差的分布中,使得信息熵有最大值的分布。换言之,正态分布是在均值以及方差已知的各种分布中,被自然选择出来的“特殊使者”,有其深奥的物理意义,充分表现出随机中的必然。就像光线选择时间最短的路径传播,引力场中的物体沿测地线运动一样,随机变量则按照最优越的钟形曲线分布!
理论而言,正态分布的确有不少优越性:1. 两个正态分布的乘积仍然是正态分布;2. 两个正态分布的和是正态分布;3. 正态分布的傅立叶变换仍然是正态分布。
还可以用与微积分中泰勒展开类比的方法,来理解大数定律和中心极限定理。微积分中,将一个连续可导函数f(x)在a的邻域泰勒展开为幂级数,可以近似计算函数的值:
这儿,0阶近似f(a)是f(x)在a的值,1阶修正中的f’(a)是f(x)在a的一阶导数值……剩余的是高阶小量,一定的条件下可忽略不计。从上式可知,函数泰勒展开的n阶系数是函数的n阶导数除以n的阶乘,即f(n)(a)/n!。类似于此,我们可对随机变量X作形式上的展开:
X = nE(X) +sqrt(n)std(X)N(0,1) + ……
其中随机变量的期望值E(X)对应于f(a),标准方差的平方根std(X)对应于一阶导数,正态分布N(0,1)对应于(x-a),后面是可以忽略的高阶小量。此外,也可以用物理学中“矩”的概念来描述随机变量的各阶参数:期望值m是一阶矩,方差s2是二阶矩。大数定律给出一阶矩,表示随机变量分布的中心;中心极限定理给出二阶矩(方差),表示分布对中心(期望值)的离散程度。如果还考虑高阶小量的话,三阶矩对应“偏度”,描述分布偏离对称的程度;四阶矩对应峰度,描述随机分布“峰态”的高低。正态分布的偏度和峰度皆为0,因此,正态分布只需要两个参数m和s就完全决定了分布的性质,见图4。
中心极限定理的应用
正态分布在应用上非常有效,下面便举两个简单例子予以说明。
例1:小王到某保险公司应聘,经理给他出了一道考题:如果让你设计一项人寿保险,假设客户的数目有1万左右,被保险人每年交200元保费,保险的赔偿金额为5万元,估计当地一年的死亡率(自然+意外)为0.25%左右,那么,你会如何计算公司的获利情况?
小王在经理面前紧张地估算了一下:从1万个客户得到的保费是200万,然后1万人乘以死亡率,可能有25人死亡,赔偿金额为25×5万,等于125万。所以,公司可能的收益应该是200万减去125万,等于75万左右。经理面露满意的笑容,但又继续问:75万只是一个大概可能的数目,如果要你具体大略地估计一下,比如说,公司一年内从这个项目得到的总收益为50-100万元的概率是多少,或者是需要估计公司亏本的概率,你怎么算呢?
图6:正态分布用于估计人寿保险
这下难倒了小王:要真正计算概率需要用到分布,这是什么分布啊?小王脑袋里突然冒出了“中心极限定理”,1万个客户的数目足够大了,可以用正态分布。首先需要计算平均值m和方差s,人寿保险简单,要么受保人死了公司赔偿,要么没死就不赔偿,是一个像抛硬币的“二项分布”问题,只不过这儿死亡的概率比较小,只是p=0.25%。用正态分布来近似的话,只要知道了期望和方差,概率便不难计算。小王回想起来正态分布的简单图像以及几个关键数值(见图6),算出均值m=E(X)=np=10000*0.25%=25,方差(s2=Var(X)=np(1-p)=25),由此得到s=5。
然后,要计算公司赚50-100万元的概率,从图6可知,也就是死亡人数在20到30之间的概率,刚好就是从(m-s)到(m+s)之间的面积,大约68.2%左右。至于公司何种情况下会亏本呢?直观而言,如果死亡的人数多于40,公司便亏本了,概率到底是多少呢?同样可用图6进行估计,40和25之间相差15,等于3s,因而得到概率大约等于0.1%,所以,保险公司亏本的概率几乎为零。
例2:图7a是美国2010年1,547,990个SAT考试成绩的原始数据,其中有1,313,812个分数在1850之下,有74,165个成绩是在2050以上。由此我们从原始数据可以算出:分数在1850之下的百分比是0.849,分数在2050之上的百分比是0.0479。
图7:SAT成绩
另一方面,原始的结果可以用一个平均分数m=1509,标准方差的平方根s=312的正态曲线来近似。因此,我们也可以从正态分布曲线来计算分数低于1850及高于2050的百分比,它们分别对应于图7b和图7c中阴影部分的面积。根据高斯积分求出两个图中的面积分别为0.8621和0.0418。对照从原始数据的计算结果0.849和0.0479,相差非常小。
大数定律和中心极限定理,都是基于多次实验结果的古典概率观点,属于频率学派。之后将介绍概率论中极端的两大派别:频率学派和贝叶斯学派。
参考文献:
【1】"Sir Francis Galton F.R.S: 1822-1911". galton.org. Retrieved 9January 2017.
【2】维基百科:中心极限定理
https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86
【3】Gabriel Lippmann (French physicist ,16 Aug 1845 - 13 Jul 1921),Conversation with Henri Poincaré. In Henri Poincaré, Calcul ds Probabilités (1896), 171
转载本文请联系原作者获取授权,同时请注明本文来自张天蓉科学网博客。
链接地址:https://wap.sciencenet.cn/blog-677221-1068813.html?mobile=1
收藏