博文

[转载]《联邦党人文集》背后的统计学幽灵

已有 3277 次阅读 2014-11-10 08:48 |个人分类:科普小兵|系统分类:观点评述|文章来源:转载

《联邦党人文集》背后的统计学幽灵

英国《金融时报》中文网专栏作家何帆

2014-11-10

（http://www.ftchinese.com/story/001059025?page=1）

1787年9月，美国的宪法草案被分发到各州进行讨论。一批反对派以“反联邦主义者”为笔名，发表了大量文章对该草案提出批评。亚历山大·汉密尔顿着急了，他找到曾任外交国务秘书（即后来的国务卿）的约翰·杰伊，以及纽约市国会议员麦迪逊，一同以普布利乌斯（Publius）的笔名发表文章，向公众解释为什么美国需要一部宪法。他们走笔如飞，通常在一周之内就会发表3-4篇新的评论。1788年，他们所写的85篇文章结集出版，这就是著名的《联邦党人文集》。

《联邦党人文集》出版的时候，汉密尔顿坚持匿名发表，于是，这些文章到底出自谁人之手，成了一桩公案。1810年，汉密尔顿接受了一个政敌的决斗挑战，但他出于基督徒的宗教信仰，决意不向对方开枪。在决斗之前数日，汉密尔顿自知时日不多，他列出了一份《联邦党人文集》的作者名单。1818年，麦迪逊又提出了另一份作者名单。这两份名单并不一致。在85篇文章中，有73篇文章的作者身份较为明确，其余12篇存在争议。

1955年，哈佛大学统计学教授Fredrick Mosteller找到芝加哥大学的年轻统计学家David Wallance，忽悠他跟自己一起做研究。他跟Wallance说：“这个夏天你能不能到新英格兰，来跟我一起做一个小小的课题呢？”Mosteller想用统计学的方法，鉴定出《联邦党人文集》的作者身份。

这根本就不是一个小小的课题。汉密尔顿和麦迪逊都是文章高手，他们的文风非常接近。从已经确定作者身份的那部分文本来看，汉密尔顿写了9.4万字，麦迪逊写了11.4万字。汉密尔顿每个句子的平均长度是34.55字，而麦迪逊是34.59字。就写作风格而论，汉密尔顿和麦迪逊简直就是一对双胞胎。汉密尔顿和麦迪逊写这些文章，用了大约一年的时间，而Mosteller和Wallance甄别出作者的身份，花了10多年的时间。

他们是在没有电脑的时代处理“大数据”。这一工程耗时耗力。将近100个哈佛大学的学生帮助他们处理数据。学生们用最原始的方式，用打字机把《联邦党人文集》的文本打出来，然后把每个单词剪下来，按照字母表的数序，把这些单词分门别类地汇集在一起。有个学生干得累了，伸了个懒腰，长长地叹了一口气。他这一口气用力太猛，一下子把刚刚归置好的单词条吹得如柳絮纷飞。一屋子学生瞬间石化，估计很多人连灭了他的心都有了。

Mosteller和Wallance这是要在干草垛里找绣花针。他们必须首先剔除掉用不上的词汇。比如，《联邦党人文集》里经常谈到“战争”、“立法权”、“行政权”等，但这些词汇是因主题而现，并不反映不同作者的写作风格。只有像“in”，“an”，“of”，“upon”这些介词、连词等才能显示出作者风格的微妙差异。慢慢地，他们看到了隧道洞口的一线亮光。一位历史学家好心地告诉他们，有一篇1916年的论文提到，汉密尔顿总是用“while”，而麦迪逊则总是用“whilst”。仅仅有这一个线索是不够的。“while”和“whilst”在这12篇作者身份待定的文章里出现的次数不够多。况且，汉密尔顿和麦迪逊有时候会合写一篇文章，也保不齐他们会互相改文章，要是汉密尔顿把麦迪逊的“whilst”都改成了“while”呢？

当学生们把每个单词的小纸条归类、粘好之后，他们发现，汉密尔顿的文章里平均每一页纸会出现两次“upon”，而麦迪逊几乎一次也不用。汉密尔顿更喜欢用“enough”，麦迪逊则很少用。其它一些有用的词汇包括：“there”、“on”等等。1964年，Mosteller和Wallance发表了他们的研究成果。他们的结论是，这12篇文章的作者很可能都是麦迪逊。他们最拿不准的是第55篇，麦迪逊是作者的赢率是240：1。

这个研究引起了极大的轰动。最受震撼的不是宪法研究者，而是统计学家。Mosteller和Wallance的研究，把统计学界的一个幽灵从瓶子中释放了出来。这个幽灵就是贝叶斯法则。

贝叶斯法则是18世纪的一位数学家贝叶斯最早提出来的，他本来是想证明上帝作为第一因是存在的。他的想法是这样的：贝叶斯背对一张桌子坐着，一位助手往桌子上扔球。因为背对着桌子，贝叶斯不知道球最初落在何处。他接着让助手再扔一个球，并报告这个球落在第一个球的左边还是右边，如果第二个球落在第一个球的左边，那么就意味着第一个球更可能落在靠近桌子右侧的位置。如果助手继续不停地扔球，每次都报告扔出的球落在第一个球的左边还是右边，那么，贝叶斯就能越来越准确地推断出最初的球落在哪里。他认为，这样不断地尝试，最终我们就能追溯到世界上所有事物的最初起因。

贝叶斯自己并没有把这个思想实验太当真，可能他连自己都没有说服，说完就把这件事情给忘了。1774年，法国数学家皮埃尔-西蒙·拉普拉斯独立地再次发现了贝叶斯法则。拉普拉斯关心的问题更为世俗：当存在着大量数据，但数据又可能有各种各样的错误和遗漏的时候，我们如何才能从中找到真实的规律。拉普拉斯研究了男孩和女孩的生育比例。有人观察到，似乎男孩的出生数量比女孩更高。这一假说到底成立不成立呢？拉普拉斯不断地搜集新增的出生记录，并用之推断原有的概率是否准确。每一个新的记录都减少了不确定性的范围。拉普拉斯给出了我们现在所用的贝叶斯法则的表达。严格地讲，贝叶斯法则至少要被称为“贝叶斯-拉普拉斯法则”，但拉普拉斯自己随后也放弃了这一思路。他发现，如果数据量足够地大，可以通过直接研究这些样本，推断总体的规律。用统计学的术语讲，拉普拉斯本人从一个“贝叶斯主义者”变成了“频率主义者。”

频率主义者把贝叶斯法则视为洪水猛兽。频率主义者觉得贝叶斯学派最大的问题是让算命者进了科学的神殿。在频率主义者看来，科学是关于客观事实的研究，我们只有反复观察一个可复制的现象，直到积累了足够多的数据，才能从中推断出有意义的规律。频率主义者坚持认为，过去没有发生过的事情将来也永远不会发生。极端地讲，从频率主义的角度说，飞机不会相撞：直到它们相撞的时候它们才撞上了。

频率主义者义正辞严，但现实中需要解决的问题却和频率主义者的主张南辕北辙。比如，频率主义者可能会告诉大夫，慢性阻塞性肺病的症状是呼吸困难，但大夫想要知道的是，如果我看到一个患者呼吸困难，那么他可能患慢性阻塞性肺病的概率是多少？哮喘病人也可能会气喘吁吁啊。这时候，我们就不得不抛弃力求完美的频率主义者，接受从无知中逐渐发现近似性的规律的贝叶斯法则。

贝叶斯法则假设我们最初有一个先验概率，你可以先从直觉甚至瞎猜出发，然后，你观察到新的信息，从而得到了后验概率，这时候，你就可以用后验概率来修正最早的先验概率，通过不断的“试错”，逐渐形成新的、更为准确的认识。贝叶斯法则允许你无知，允许你犯错，甚至鼓励你犯错。只要你能够把每一次犯的错误都改正，你就能更快地接近真理。和“割不正不食、席不正不坐”的清教徒式的频率主义者相比，贝叶斯主义者简直就是一群混乱、喧闹的嬉皮士。

250年前，贝叶斯法则诞生了。之后，它被遗忘了50年，又被放逐了150年。长期以来，统计学家对贝叶斯法则讳莫如深，仿佛文革期间人们不愿意提起自己的海外亲友。然而，地火始终在燃烧。就算是拉普拉斯本人都放弃了这一思想，法国和俄国的炮兵仍然在使用贝叶斯法则，计算炮弹如何才能打得更准。第二次世界大战期间，阿兰·图灵发展了贝叶斯法则，破解了德国海军的密码。英国地球物理学家哈罗德·杰弗里斯用它推测出地核是液态的，也许是熔化的铁，或者混合了少量镍。法国著名数学家庞加莱在审判犹太军官德雷福斯的时候出庭作证（著名作家左拉写了《我控诉》，指责法庭有种族歧视的倾向），他援引了贝叶斯法则证明德雷福斯是无辜的。

到了20世纪50年代和60年代，一股股贝叶斯学派的反叛军揭竿而起。Mosteller和Wallance的研究是这一法则提出200年之后，成功地应用于大型数据的典范。Dennis Lindley和Jimmie Savage为贝叶斯法则找到了更严格的数学基础。Jerome Cornfield运用贝叶斯法则，研究了吸烟可能会导致肺癌。他的这一研究遭到了频率主义者的强烈抨击。频率主义者的旗手，著名统计学家Fisher不仅不承认这一结论，甚至争辩说，有可能是癌症导致了抽烟！在哈佛大学商学院，Robert Shlaifer和Howard Raiffa教MBA学生，如何在不确定的条件下运用贝叶斯法则决策。他们的努力最终开花结果了，经济学家比统计学家更为熟悉贝叶斯法则。就连曾任美联储主席的格林斯潘都承认，经济决策离不开贝叶斯法则--他有没有真的用贝叶斯法则，那是另外一回事。或许，如果他真的用了，金融危机也就不会爆发了。当鲍尔森要到美国财政部担任部长的时候，他的前任鲁宾告诫他：华盛顿是个概率论的世界。鲍尔森马上就明白，他暗示的是贝叶斯法则。

到了最近30年，贝叶斯法则的幽灵才终于重见天日。过去，贝叶斯学派遇到的一个主要问题是计算起来非常麻烦，随着电脑的发展，尤其是当数学家们发现了马尔可夫链蒙特卡罗方法（简称MCMC）之后，贝叶斯学派突然鸟枪换炮，大放异彩。一场轰轰烈烈的“贝叶斯革命”发生了：生命科学家用它研究基因是如何被控制的；教育学家突然意识到，学生的学习过程其实就是贝叶斯法则的运用；基金经理用贝叶斯法则找到投资策略；Google用贝叶斯法则改进搜索功能，帮助用户过滤垃圾邮件；无人驾驶汽车接收车顶传感器搜集到的路况和交通数据，运用贝叶斯法则更新从地图上获得的信息。人工智能、机器翻译中大量用到贝叶斯法则。贝叶斯法则成了时尚。

在大数据时代，浩如烟海的信息并没有让我们变得更加睿智，相反，随着信息的增加，噪音也越来越多，我们还是和过去一样不知所措，我们仍然像置身于帝都的雾霾之中一样看不清前途。贝叶斯法则告诉我们，要承认自己的无知，小心翼翼地试探前方的道路，随时准备修正，甚至放弃自己曾经相信的东西：当这个世界改变的时候，我们的观点也要随之改变。

［作者注］本文取材于Sharon Bertsch McGrayne, 2011，The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy，Yale University Press.

(注：本文进代表作者个人观点，本文责编霍默静 mojing.huo@ftchinese.com)

转载本文请联系原作者获取授权，同时请注明本文来自武夷山科学网博客。
链接地址：https://wap.sciencenet.cn/blog-1557-842386.html

上一篇：广义生命体的边界与信息需求
下一篇：日记摘抄（61）----出勤率高，遭到表扬

收藏 IP: 219.142.129.*| 热度|

当前推荐数：5 推荐人：林芳芳 曹聪 李超勇 魏瑞斌 余昕

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

武夷山

扫一扫，分享此博文

武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员；南京大学信息管理系博导

博文

[转载]《联邦党人文集》背后的统计学幽灵

当前推荐数：5 推荐人：林芳芳 曹聪 李超勇 魏瑞斌 余昕

该博文允许注册用户评论请点击登录评论 (1 个评论)

武夷山

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员；南京大学信息管理系博导

博文

[转载]《联邦党人文集》背后的统计学幽灵

当前推荐数：5 推荐人： 林芳芳 曹聪 李超勇 魏瑞斌 余昕

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

武夷山

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：5 推荐人：林芳芳曹聪李超勇魏瑞斌余昕

该博文允许注册用户评论请点击登录评论 (1 个评论)