高晓东
为什么会是正态分布?
2010-12-4 20:53
阅读:26321
标签:正态分布, 统计分析, 土壤水

        做过统计分析的人都知道,某变量的值在随机取样的情况下一般服从正态分布。在分析变量之间的显著性差异和进行方差分析等经验统计分析时都要求变量服从或者近似正态分布(对数正态分布)。这是因为变量的统计分析基本上都是以变量的正态分布为基础进行的。既然是统计,一般来说都是经验的,缺乏一定的理论依据。因此,许多人都有这样的疑惑,在没有人为干扰下,变量的分布为什么会是正态的呢?

        首先简单介绍一下正态分布的概念和性质。 正态分布是一种概率分布,又叫高斯分布(图1)。高斯等人对正态分布进行了推导并发现了正态分布的相关性质。其中一个主要性质就是正态分布以变量均值u为轴成对称分布,均值所对应的概率最大,向两边对称减小。这句话也可以这样理解,在一次取样中,某变量的大部分值集中在变量均值附近,其余一小部分值与均值相差较大。正态分布在英语中叫normal distribution。说明变量的这种分布是正常分布。为什么大部分变量值会集中在其均值附近呢?想一想我们生活中的遭遇,看一看我们周围正在发生的事,我们会很吃惊地发现我们生活中很多事物和事情都是这样。比如社会上大多数人的收入和财产处于平均水平,富人是少数,穷人也是少数。再比如社会上大多数人的相貌平平,只有少部分相貌出众,当然也有部分人相貌丑陋。生物界是这样,非生物界亦如此;植物界是这样,动物界同样如此。

        其实,自然条件下由于受众多因素影响,变量的分布不会是均匀分布。既然不是均匀分布,就会出现变量值的相对集中,变量就可能会呈现如正态分布那样的单峰分布。其实我们的疑问更多是为什么大多数变量会集中在“那个值”附近,以及为什么是单峰而不是多峰分布?对于第一个疑问,要具体问题具体分析。打个比方,假设北京市建筑物的高度70%集中在50-100m之间,为什么会是50-100m这个和北京市的社会经济发展水平、人口数量及地质条件等因素有关。也就是说变量所处的外部环境因素决定了变量值的集中范围。对于第二个疑问,为什么不是多峰。这可能也是由变量所处的外部环境决定。如果外部环境处于相对稳定的状态,那么其分布就不会是多峰型。而如果其外部环境经常变化,则其分布就可能是多峰型。以我所研究的土壤水分为例,土壤水分主要受降水和蒸发都因素的影响。由于一个地区的降雨量和蒸散发在一直变化,且有时候变化剧烈,导致土壤水分的概率分布呈现多峰(图2)。这种解释我个人觉得比较合理。但是主观性比较强,如果要更客观地去解释这种现象,还需要提出某种比较合理的理论。我希望借此抛砖引玉,和感兴趣的网友进行交流。

 图1 正态分布图


图2 土壤水分概率分布图

转载本文请联系原作者获取授权,同时请注明本文来自高晓东科学网博客。

链接地址:https://wap.sciencenet.cn/blog-481915-390307.html?mobile=1

收藏

分享到:

当前推荐数:6
推荐到博客首页
网友评论7 条评论
确定删除指定的回复吗?
确定删除本博文吗?