龙五?龙舞!分享 http://blog.sciencenet.cn/u/DaCaiNiao 行踪常在云霄外,天下英豪我第一

博文

莱尔的P值大奖:没头脑与不高兴【3】

已有 5042 次阅读 2015-7-23 17:43 |系统分类:观点评述

5月底治华推荐莱尔这篇博文的时候,咱也就是凑个热闹看看,根本就没打算写。不写的原因是,第一,莱尔的博文写的非常深也非常难,要读懂很费劲;第二,读都很困难了,想办法写成故事那不要命了?之前写莱尔的三篇博文,花了我至少半个月的时间,并且还综合了一众好友的意见,才勉强成文,并且细节上也并没有完全看懂。因此可以说,能大概齐看懂莱尔的博文,生信水平已在2级及以上(可参见《如何成为顶级生物信息学家》),若是独立从事研究的生信学者,在国内的生信圈儿绝非泛泛之辈,应该已有相当的影响;若还是研究生或博士后,那么恭喜并请继续努力,前途一片光明啊。所以莱尔的博客,作为生信圈儿的最佳马桶读物,是有道理的。

前段时间去哈尔滨开第十二届国际生物信息学论坛(IBW2015,栋子之前跟大家说哈尔滨冷要注意保暖,所以咱扛着棉袄就去参会了。去了之后才发现:卧靠,祖国山河一片红,热的要命啊。于是会场里大家一边伸着舌头散热,一边听大会,还一边在下边开小会。后来就讲起来,说圈儿里最近有啥热闹事儿?然后某女神就说,要不你写写莱尔的P值大奖?我很难堪地答:没看懂结果众人哈哈大笑,咱顿时不高兴了。因此马上翻出来莱尔的博客,花了半个小时,看懂了。既然看懂了,那自然得写出来是吧?不过写的这么长也确实没料到,各位将就着看吧。

另一个顺带推荐的是,国际著名统计学家、哈佛大学刘军教授、Shirley的博士老板最近在《人民日报》上发表的《大数据是“原油”,不是“汽油”》,重点强调统计学至于大数据分析的重要性(下图)。刘军教授以贝叶斯方面的研究成名,当年哈佛大学华人的正教授只有三位,分别是咱科大出来的庄小威教授,北大毕业的谢晓亮教授,以及同是北大毕业的刘军教授。所以咱写博客讲到贝叶斯自然也是向大师致敬。


 

======================================================

 

(接上篇)在莱尔博文的评论里,总共有100多个评论。粗略看了一下,对这个问题的回答可分为四个级别:

 

0. 打酱油级。代表性学者:Eric Lander,Pavel Pevzner。前者是人类基因组计划里最重要的关键人物,诺奖级别;后者近20年里在生信领域很多个方向,尤其是计算蛋白质组领域里,几乎是神一样的存在,大家童年穿开裆裤的时代都是满地尿尿,这位可是一边喝着伏特加,一边做《共青团报》上的数学题。前苏联出品的数学家,质量绝对过硬。两位打酱油是有原因的,这是因为此博文一发,马上就有人给出正确结果。以EricPavel的水平,当然不会看不出来。因为文章是Eric做的通讯作者,所以他自然要站出来解释一下说这篇文章有道理之类的。而Pavel当然是看着乐一乐就拉倒了。所以一眼就看出答案的,这些干脆就打酱油,笑而不语了。 

1. 大菜鸟级。代表性学者:匿名,和我(能算不?)。莱尔在527日贴出一封寄给他的信,是这么考虑的:有457个随机变量(代表每个基因对),每个变量有三种状态:未加速进化,单加速和双加速。因此空假设H0为基因对里两个基因是独立进化的,没有关联;备择假设H1为基因对里两个基因有关联,不是独立进化的。这样作者可以用卡方检验(Chi-square test)来计算2*2表的统计显著差异。当然按照这个模型,我选择用Fisher’s Exact Testhttp://www.langsrud.com/fisher.htm)来算(个人喜好),结果见下图。


 

   这样p-value<0.005<0.05,因此统计上是显著的。如果这个答案若是正确的,莱尔大概要支付我2万美刀。不过后来犹豫了很久,怕写信给莱尔之后被骂没头脑,而且真要支付我2万美刀我也不知道怎么花不是?所以就没有写信。当然另一层考虑是,琢磨来琢磨去总觉得这个算法不对。 

2. 没头脑级。代表性学者:Manolis Kellis。对,就是本篇和莱尔打架的这位曼诺利斯。MIT的教授,岂是你想胖揍就能揍得了的?因为正确答案在26日博文发表不久就已经有人给出了,全世界都知道KBL 2004这篇文章肯定有问题,这还能扳的回来吗?曼诺利斯要试试,于是27日给出了一个统计方法:空假设H0为复制基因对的进化符合BS模型,备择假设H1为复制基因对的进化符合OS模型。这样可以把问题转化成一个二项分布(Binomial test)的统计问题:在OS模型里,76对复制基因中有72对是单个复制基因加速,因此成功率为72/76=0.95们利用Excel里的二项分布函数=BINOMDIST(72,76,0.95,FALSE),可得到p-value=0.2(这个函数的用法可百度,这里不做介绍);而对于BS模型,因为76对中只有4对是双复制基因加速,所以=BINOMDIST(4,76,0.95, FALSE)的计算结果得到p-value=2.2E-88。由于第一个p-value远大于第二个p-value,因此显然应该接受OS模型。考虑这两个p-value相比较的几率值,即0.2/2.2E-88= ~1E-87,根据莱尔宣称P值大奖为奖金为$100/p-value,因此莱尔大约要支付曼诺利斯“903,659,165 million billion trillion quadrillion quintillion sextillion dollars”。

这么没头脑的解答一出,大家都不高兴了。本来大家觉得你莱尔没事儿找事,逮住一个曼诺利斯虐了一遍又一遍,有意思没有?后来发现:被虐,自然有被虐的原因。做学术大家都会犯错,只要不是造假、剽窃这类原则性的问题,方法学上有礼节性的错误不是什么不得了的事情。但既然你错了,并且你也知道你错了,你总得承认是吧?你开展个自我批评,写个500字检讨,那大家仍然觉得你是个好同志。但问题在于,如果明知有错还死不认账,那真是没头脑了。因此德国学者Johannes Söding64日评论:曼诺利斯这样杰出的研究者居然给出这个答案真是难以理解,这样的讨论表明了科学家承认自己犯错的重要性。(This answer from such a preeminent researcher as Manolis Kellis is curious and troubling. It is the highlight of a discussion that starkly illustrates the importance for scientists of being able to admit ones one mistakes.)细节不讲了,但曼诺利斯这个解答显然是错的,莱尔的一个最简单的解释是:叫你算p-value,你算两个p-value相除这是几个意思?第二个问题在于,即使曼诺利斯方法没有问题,那么对于OS模型,要么符合(H0),要么不符合(H1),那符合OS模型的概率应当是=BINOMDIST(72,76,0.95, TRUE)p-value=~0.53,显然也还是不显著。 

3. 不高兴级。代表性学者:GM, PseudoMichael Eisen。其中GM给出第一个接近正确的答案。用“接近正确”是因为回答者有个小小的错误,被Michael Eisen,基因芯片分析的超级大牛,给指出来了。推导最严谨的是Pseudo。其统计模型是:H0为加速进化的基因随机成对,预期出现不少于4对加速进化,而H1为观察到4对加速进化。457对复制基因共914个基因,其中72+4*2=80个基因存在加速进化,因此单个基因加速进化的概率=80/914=0.088,一对基因同时加速进化的概率为0.088*0.088=0.0077。考虑二项分布,总共457对,观察到4对加速进化,因此概率为=BINOMDIST(4,457,0.0077,TRUE),计算后p-value=0.72。因此正确的计算过程表明,统计不显著,不能接受OS模型。所以KBL 2004的“Strikingly”没有道理。自然,不高兴级的结果是合理的答案。 

   好,按惯例咱做个总结。第一,虽然仍然有许多严厉批评的声音,但近年来国内主流生物学家对生物信息学研究持越来越宽容的态度。随着技术的革新,生物学研究逐渐从定性的观察研究转变为严格或较为严格的定量分析,因此数学、统计学、计算机以及,生信,是必须的。第二,使用生信工具和从事生信研究是两码事,这需要分清。因此有很多学者宣称自己在“做生信”,事实上只是简单的利用已有的工具做做分析,例如你拿iPhone打电话与你做iPhone手机,这能是一回事儿吗?第三,批评要具体,一个领域总有人水平高,有人水平低,你不能看见一个新手就彻底觉得这个领域没前途,而且大家都是从新手过来的,得有点儿宽容心。第四,从事生信研究,方法学要严谨,并且可以非常严谨。例如对于一组数据,可能有很多个可以解释的统计方法,究竟哪个方法最好?这在非专业学者看来似乎很困难,逮住哪个用哪个得了,但专业的学者不能这么做,在经过长期的、专业的训练之后,可以训练出敏锐的判断力。



https://wap.sciencenet.cn/blog-404304-907643.html

上一篇:莱尔的P值大奖:没头脑与不高兴【2】
下一篇:引力波探测:淼叔的科幻现实

9 曹聪 武夷山 戴德昌 梁妍钰 金耀初 黄健 庞晓明 李天成 dachong99

该博文允许注册用户评论 请点击登录 评论 (9 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-6-24 02:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部