胡锋的博客分享 http://blog.sciencenet.cn/u/hufeng 希望理解鸟怎么一起飞,鱼怎么一起游;希望和身边的人分享科学的乐趣。

博文

群体智慧与中心极限定理

已有 5291 次阅读 2010-12-31 14:37 |个人分类:未分类|系统分类:科普集锦| 分布函数, 高斯分布, wrongs

英国科学家Galton曾记叙过这么一件事情。在1907年的时候,曾经在英国的一个集市上举行过一场“猜重量”的比赛。比赛的规则是猜一头牛的重量,谁猜得靠近真实的重量,谁就获胜,共有787人参加了比赛。可以想见,对于个人猜测,有些人猜得过高,有些人猜得低了,大部分人猜测的结果在离真实重量的正负几十磅内,少部分人的结果差得很离谱。可令人惊奇的是,如果把所有的答案平均起来,我把这个答案称之为“群体猜测”,其结果竟然只比牛的真实重量1197磅,相信吗?仅仅少了1磅(450克)。看来,“群体猜测”的结果要远远好于个人猜测。

在这儿需要说明一下,数学家一般用一个叫做分布函数的东西来描述人们猜测的结果。借用上面的例子,对于个人的猜测来说,比如猜1220磅附近的人有8个,占总人数的1%,猜1160磅附近的人数共有5个,占到0.6%。分布函数所描述的是猜测的结果以及猜到这个结果(附近)的人所占的比例。分布函数是一个应用非常广泛的概念,在日常生活中我们也常常遇到,也许没用到这个漂亮的名词。比如说,为了调查城市的交通状况,我们需要了解在马路上经常行驶的拖拉机的数量,小轿车的数量,大巴士的数量等等,然后算出各种车所占的比例。这个分布函数可以作为继续调查城市交通问题的一个基本数据。

对于上面“猜体重”这个例子,可以用数学上非常有名的中心极限定理来理解为什么“群体猜测”的结果好于个人猜测。为了理解这个“群体猜测”,请大家想象有很多场同样的比赛都在进行,因而可以产生很多个“群体猜测”。我们先做两个合理假定:1,这787个人都是独立进行的猜测,2,假定这些人的智商相差不大,或者说这些人的猜测结果遵循着相同的分布函数,比如说高斯分布。

高斯分布是数学中分布函数的重要一种,其特点是围绕着平均值左右对称,并且从平均值两边逐渐减小,到离开平均值一定距离后(这个一定的距离术语称为标准差),分布函数变得很小了。借用这个例子,平均值是牛的真实重量,猜测数值有些人过高,同样多的人过低,两者围绕着平均值是对称的。大部分人的猜测的重量都在离开真实重量的正负30磅内(标准差),如下左图。有了这两个假定,我们根据中心极限定理可以知道,“群体猜测”的分布是一个高斯分布,其平均值与个体猜测的平均值相同(在这儿即是牛的真实重量),但分布的标准差大大减小,是 磅,如下右图。这表明“群体猜测”的结果大部分都在平均值的正负1磅内,误差过大的猜测很少。中心极限定理告诉我们,如果参赛的人越多,这个“群体猜测”会越准确。

                个人猜测                                             群体猜测

图例:两图的纵轴都是概率,横轴都是所猜的重量,其单位是“磅”,图中的曲线都是高斯分布曲线。其中,左图是“个人猜测”,其平均值是1197,标准差是30;右图是“群体猜测”,其平均值也是1197,但标准差是1(注意比较两图的横坐标)。

2004年,美国生物学家 Andrew M. Simons把这个原理用到了动物群体迁徙时的方向选择上[1]。对于单个的动物来说,可能因为记忆不够准确,或是感觉器官的偏差,不可能100%正确的选择运动的方向,会有比较大的偏差。可是,如果动物群体采用上文中“猜体重”比赛用到的“群体猜测”的方法而确定群体运动的方向,会大大的减少这种偏差,从而提高群体迁徙的效率。

这是一个很漂亮的比喻,但是再仔细一想,这种理解有很大的困难。比如说这个理论的前提是个体都做出独立的选择,也就是说没有相互作用,但这样的个体首先会难以形成一个群体。而且,即使形成了群体,对整体运动方向的获得需要能够即时的掌握全局的信息,这对于动物个体来说也是太高的要求。

对群体智慧的理解还刚刚起步,但每到黄昏的时候,当成百上千只的鸟在空中进行盛大的空中表演的时候,这个来自亘古的疑问会成为科学家新的动力。

2010最后一天   悉尼大学生物学院

[1] Many wrongs: the advantage of group navigation   Andrew M.  Simons  Trends in Ecology and Evolution  19  453 (2004).

后记: 

1,网友dailiangren认为我上篇文章《概率这个东西》中酒鬼散步的模型最终得到的高斯分布,可以由中心极限定理推导出来,确实如此(但这并非我上篇文章的主要内容),谢谢指出。

酒鬼的每一步的选择+1(向右)或 -1(向左)都是独立的、相同的随机分布,因而可以用到中心极限定理。值得指出的是,酒鬼的最终位置是每一步位置的(并非平均值),因而可以解释为什么酒鬼最终位置的高斯分布的标准差是随着时间 (每单位时间走一步)线性增长。

2,在上篇文章中贴过关于以前学习中心极限定理时的两个计算机实验,为方便网友,再贴一遍(上个版本有网友说有格式问题,这个略微修改了一下,不知好了没有)。


通过计算机数值计算结果学习中心极限定理



https://wap.sciencenet.cn/blog-43547-399528.html

上一篇:概率这个东西
下一篇:蟑螂“懂”民主和数学吗?
收藏 IP: .*| 热度|

3 许培扬 杨芳 yinglu

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-1 07:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部