|||
英国科学家Galton曾记叙过这么一件事情。在1907年的时候,曾经在英国的一个集市上举行过一场“猜重量”的比赛。比赛的规则是猜一头牛的重量,谁猜得靠近真实的重量,谁就获胜,共有787人参加了比赛。可以想见,对于个人猜测,有些人猜得过高,有些人猜得低了,大部分人猜测的结果在离真实重量的正负几十磅内,少部分人的结果差得很离谱。可令人惊奇的是,如果把所有的答案平均起来,我把这个答案称之为“群体猜测”,其结果竟然只比牛的真实重量1197磅,相信吗?仅仅少了1磅(450克)。看来,“群体猜测”的结果要远远好于个人猜测。
在这儿需要说明一下,数学家一般用一个叫做分布函数的东西来描述人们猜测的结果。借用上面的例子,对于个人的猜测来说,比如猜1220磅附近的人有8个,占总人数的1%,猜1160磅附近的人数共有5个,占到0.6%。分布函数所描述的是猜测的结果以及猜到这个结果(附近)的人所占的比例。分布函数是一个应用非常广泛的概念,在日常生活中我们也常常遇到,也许没用到这个漂亮的名词。比如说,为了调查城市的交通状况,我们需要了解在马路上经常行驶的拖拉机的数量,小轿车的数量,大巴士的数量等等,然后算出各种车所占的比例。这个分布函数可以作为继续调查城市交通问题的一个基本数据。
对于上面“猜体重”这个例子,可以用数学上非常有名的中心极限定理来理解为什么“群体猜测”的结果好于个人猜测。为了理解这个“群体猜测”,请大家想象有很多场同样的比赛都在进行,因而可以产生很多个“群体猜测”。我们先做两个合理假定:1,这787个人都是独立进行的猜测,2,假定这些人的智商相差不大,或者说这些人的猜测结果遵循着相同的分布函数,比如说高斯分布。
高斯分布是数学中分布函数的重要一种,其特点是围绕着平均值左右对称,并且从平均值两边逐渐减小,到离开平均值一定距离后(这个一定的距离术语称为标准差),分布函数变得很小了。借用这个例子,平均值是牛的真实重量,猜测数值有些人过高,同样多的人过低,两者围绕着平均值是对称的。大部分人的猜测的重量都在离开真实重量的正负30磅内(标准差),如下左图。有了这两个假定,我们根据中心极限定理可以知道,“群体猜测”的分布是一个高斯分布,其平均值与个体猜测的平均值相同(在这儿即是牛的真实重量),但分布的标准差大大减小,是