武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

[转载]《联邦党人文集》背后的统计学幽灵

已有 3277 次阅读 2014-11-10 08:48 |个人分类:科普小兵|系统分类:观点评述|文章来源:转载

《联邦党人文集》背后的统计学幽灵

英国《金融时报》中文网专栏作家 何帆 

2014-11-10

http://www.ftchinese.com/story/001059025?page=1

 

 

   1787年9月,美国的宪法草案被分发到各州进行讨论。一批反对派以“反联邦主义者”为笔名,发表了大量文章对该草案提出批评。亚历山大·汉密尔顿着急了,他找到曾任外交国务秘书(即后来的国务卿)的约翰·杰伊,以及纽约市国会议员麦迪逊,一同以普布利乌斯(Publius)的笔名发表文章,向公众解释为什么美国需要一部宪法。他们走笔如飞,通常在一周之内就会发表3-4篇新的评论。1788年,他们所写的85篇文章结集出版,这就是著名的《联邦党人文集》。

《联邦党人文集》出版的时候,汉密尔顿坚持匿名发表,于是,这些文章到底出自谁人之手,成了一桩公案。1810年,汉密尔顿接受了一个政敌的决斗挑战,但他出于基督徒的宗教信仰,决意不向对方开枪。在决斗之前数日,汉密尔顿自知时日不多,他列出了一份《联邦党人文集》的作者名单。1818年,麦迪逊又提出了另一份作者名单。这两份名单并不一致。在85篇文章中,有73篇文章的作者身份较为明确,其余12篇存在争议。

1955年,哈佛大学统计学教授Fredrick Mosteller找到芝加哥大学的年轻统计学家David Wallance,忽悠他跟自己一起做研究。他跟Wallance说:“这个夏天你能不能到新英格兰,来跟我一起做一个小小的课题呢?”Mosteller想用统计学的方法,鉴定出《联邦党人文集》的作者身份。

这根本就不是一个小小的课题。汉密尔顿和麦迪逊都是文章高手,他们的文风非常接近。从已经确定作者身份的那部分文本来看,汉密尔顿写了9.4万字,麦迪逊写了11.4万字。汉密尔顿每个句子的平均长度是34.55字,而麦迪逊是34.59字。就写作风格而论,汉密尔顿和麦迪逊简直就是一对双胞胎。汉密尔顿和麦迪逊写这些文章,用了大约一年的时间,而Mosteller和Wallance甄别出作者的身份,花了10多年的时间。

他们是在没有电脑的时代处理“大数据”。这一工程耗时耗力。将近100个哈佛大学的学生帮助他们处理数据。学生们用最原始的方式,用打字机把《联邦党人文集》的文本打出来,然后把每个单词剪下来,按照字母表的数序,把这些单词分门别类地汇集在一起。有个学生干得累了,伸了个懒腰,长长地叹了一口气。他这一口气用力太猛,一下子把刚刚归置好的单词条吹得如柳絮纷飞。一屋子学生瞬间石化,估计很多人连灭了他的心都有了。

Mosteller和Wallance这是要在干草垛里找绣花针。他们必须首先剔除掉用不上的词汇。比如,《联邦党人文集》里经常谈到“战争”、“立法权”、“行政权”等,但这些词汇是因主题而现,并不反映不同作者的写作风格。只有像“in”,“an”,“of”,“upon”这些介词、连词等才能显示出作者风格的微妙差异。慢慢地,他们看到了隧道洞口的一线亮光。一位历史学家好心地告诉他们,有一篇1916年的论文提到,汉密尔顿总是用“while”,而麦迪逊则总是用“whilst”。仅仅有这一个线索是不够的。“while”和“whilst”在这12篇作者身份待定的文章里出现的次数不够多。况且,汉密尔顿和麦迪逊有时候会合写一篇文章,也保不齐他们会互相改文章,要是汉密尔顿把麦迪逊的“whilst”都改成了“while”呢?

   当学生们把每个单词的小纸条归类、粘好之后,他们发现,汉密尔顿的文章里平均每一页纸会出现两次“upon”,而麦迪逊几乎一次也不用。汉密尔顿更喜欢用“enough”,麦迪逊则很少用。其它一些有用的词汇包括:“there”、“on”等等。1964年,Mosteller和Wallance发表了他们的研究成果。他们的结论是,这12篇文章的作者很可能都是麦迪逊。他们最拿不准的是第55篇,麦迪逊是作者的赢率是240:1。

这个研究引起了极大的轰动。最受震撼的不是宪法研究者,而是统计学家。Mosteller和Wallance的研究,把统计学界的一个幽灵从瓶子中释放了出来。这个幽灵就是贝叶斯法则。

贝叶斯法则是18世纪的一位数学家贝叶斯最早提出来的,他本来是想证明上帝作为第一因是存在的。他的想法是这样的:贝叶斯背对一张桌子坐着,一位助手往桌子上扔球。因为背对着桌子,贝叶斯不知道球最初落在何处。他接着让助手再扔一个球,并报告这个球落在第一个球的左边还是右边,如果第二个球落在第一个球的左边,那么就意味着第一个球更可能落在靠近桌子右侧的位置。如果助手继续不停地扔球,每次都报告扔出的球落在第一个球的左边还是右边,那么,贝叶斯就能越来越准确地推断出最初的球落在哪里。他认为,这样不断地尝试,最终我们就能追溯到世界上所有事物的最初起因。

贝叶斯自己并没有把这个思想实验太当真,可能他连自己都没有说服,说完就把这件事情给忘了。1774年,法国数学家皮埃尔-西蒙·拉普拉斯独立地再次发现了贝叶斯法则。拉普拉斯关心的问题更为世俗:当存在着大量数据,但数据又可能有各种各样的错误和遗漏的时候,我们如何才能从中找到真实的规律。拉普拉斯研究了男孩和女孩的生育比例。有人观察到,似乎男孩的出生数量比女孩更高。这一假说到底成立不成立呢?拉普拉斯不断地搜集新增的出生记录,并用之推断原有的概率是否准确。每一个新的记录都减少了不确定性的范围。拉普拉斯给出了我们现在所用的贝叶斯法则的表达。严格地讲,贝叶斯法则至少要被称为“贝叶斯-拉普拉斯法则”,但拉普拉斯自己随后也放弃了这一思路。他发现,如果数据量足够地大,可以通过直接研究这些样本,推断总体的规律。用统计学的术语讲,拉普拉斯本人从一个“贝叶斯主义者”变成了“频率主义者。”

频率主义者把贝叶斯法则视为洪水猛兽。频率主义者觉得贝叶斯学派最大的问题是让算命者进了科学的神殿。在频率主义者看来,科学是关于客观事实的研究,我们只有反复观察一个可复制的现象,直到积累了足够多的数据,才能从中推断出有意义的规律。频率主义者坚持认为,过去没有发生过的事情将来也永远不会发生。极端地讲,从频率主义的角度说,飞机不会相撞:直到它们相撞的时候它们才撞上了。

频率主义者义正辞严,但现实中需要解决的问题却和频率主义者的主张南辕北辙。比如,频率主义者可能会告诉大夫,慢性阻塞性肺病的症状是呼吸困难,但大夫想要知道的是,如果我看到一个患者呼吸困难,那么他可能患慢性阻塞性肺病的概率是多少?哮喘病人也可能会气喘吁吁啊。这时候,我们就不得不抛弃力求完美的频率主义者,接受从无知中逐渐发现近似性的规律的贝叶斯法则。

   贝叶斯法则假设我们最初有一个先验概率,你可以先从直觉甚至瞎猜出发,然后,你观察到新的信息,从而得到了后验概率,这时候,你就可以用后验概率来修正最早的先验概率,通过不断的“试错”,逐渐形成新的、更为准确的认识。贝叶斯法则允许你无知,允许你犯错,甚至鼓励你犯错。只要你能够把每一次犯的错误都改正,你就能更快地接近真理。和“割不正不食、席不正不坐”的清教徒式的频率主义者相比,贝叶斯主义者简直就是一群混乱、喧闹的嬉皮士。

250年前,贝叶斯法则诞生了。之后,它被遗忘了50年,又被放逐了150年。长期以来,统计学家对贝叶斯法则讳莫如深,仿佛文革期间人们不愿意提起自己的海外亲友。然而,地火始终在燃烧。就算是拉普拉斯本人都放弃了这一思想,法国和俄国的炮兵仍然在使用贝叶斯法则,计算炮弹如何才能打得更准。第二次世界大战期间,阿兰·图灵发展了贝叶斯法则,破解了德国海军的密码。英国地球物理学家哈罗德·杰弗里斯用它推测出地核是液态的,也许是熔化的铁,或者混合了少量镍。法国著名数学家庞加莱在审判犹太军官德雷福斯的时候出庭作证(著名作家左拉写了《我控诉》,指责法庭有种族歧视的倾向),他援引了贝叶斯法则证明德雷福斯是无辜的。

到了20世纪50年代和60年代,一股股贝叶斯学派的反叛军揭竿而起。Mosteller和Wallance的研究是这一法则提出200年之后,成功地应用于大型数据的典范。Dennis Lindley和Jimmie Savage为贝叶斯法则找到了更严格的数学基础。Jerome Cornfield运用贝叶斯法则,研究了吸烟可能会导致肺癌。他的这一研究遭到了频率主义者的强烈抨击。频率主义者的旗手,著名统计学家Fisher不仅不承认这一结论,甚至争辩说,有可能是癌症导致了抽烟!在哈佛大学商学院,Robert Shlaifer和Howard Raiffa教MBA学生,如何在不确定的条件下运用贝叶斯法则决策。他们的努力最终开花结果了,经济学家比统计学家更为熟悉贝叶斯法则。就连曾任美联储主席的格林斯潘都承认,经济决策离不开贝叶斯法则--他有没有真的用贝叶斯法则,那是另外一回事。或许,如果他真的用了,金融危机也就不会爆发了。当鲍尔森要到美国财政部担任部长的时候,他的前任鲁宾告诫他:华盛顿是个概率论的世界。鲍尔森马上就明白,他暗示的是贝叶斯法则。

到了最近30年,贝叶斯法则的幽灵才终于重见天日。过去,贝叶斯学派遇到的一个主要问题是计算起来非常麻烦,随着电脑的发展,尤其是当数学家们发现了马尔可夫链蒙特卡罗方法(简称MCMC)之后,贝叶斯学派突然鸟枪换炮,大放异彩。一场轰轰烈烈的“贝叶斯革命”发生了:生命科学家用它研究基因是如何被控制的;教育学家突然意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策略;Google用贝叶斯法则改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器搜集到的路况和交通数据,运用贝叶斯法则更新从地图上获得的信息。人工智能、机器翻译中大量用到贝叶斯法则。贝叶斯法则成了时尚。

在大数据时代,浩如烟海的信息并没有让我们变得更加睿智,相反,随着信息的增加,噪音也越来越多,我们还是和过去一样不知所措,我们仍然像置身于帝都的雾霾之中一样看不清前途。贝叶斯法则告诉我们,要承认自己的无知,小心翼翼地试探前方的道路,随时准备修正,甚至放弃自己曾经相信的东西:当这个世界改变的时候,我们的观点也要随之改变。

[作者注]本文取材于Sharon Bertsch McGrayne, 2011,The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy,Yale University Press.

(注:本文进代表作者个人观点,本文责编 霍默静 mojing.huo@ftchinese.com)

 

 




https://wap.sciencenet.cn/blog-1557-842386.html

上一篇:广义生命体的边界与信息需求
下一篇:日记摘抄(61)----出勤率高,遭到表扬
收藏 IP: 219.142.129.*| 热度|

5 林芳芳 曹聪 李超勇 魏瑞斌 余昕

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 18:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部