气宇轩分享 http://blog.sciencenet.cn/u/yufree

博文

估计、p值与科学决策 精选

已有 7753 次阅读 2017-3-19 06:04 |个人分类:科搜研手册|系统分类:科研笔记

估计

科研数据分析中最基本的思维工具就是抽象,也就是把实实在在的事实在保留最大信息量的前提下用最简洁的描述方法展示出来,数学与统计学往往是这类工具的不二之选。估计则是其中最基本的问题,搞清楚其背后的思想才能把工具用的得心应手。

举个例子,我手头有一堆人的身高,然后找个人(没错,就是你了)让他描述一下这个数据,那么这个人该怎么办?最笨的方法就是把所有这些数读一遍,这种描述不丢失信息,但你读完了我也睡着了。这样传递信息效率太低,那么有没有办法效率高一点呢?

现在是三月,要学雷锋(这个梗再过几年估计没人看得懂了),背后的思想是什么?榜样。那么一堆数据的榜样是什么?少数服从多数,也就是出现最多的那个数,用这个数做代表就可以了。统计学上管这个数叫做众数,英文mode,加个l就是典型(model),很适合做代表。但是你要是告诉我个众数我就开始犯嘀咕了,是不是也太简化了,假如100个数的众数有10个,另外90个我就直接扔掉,太草率了。

此时作为科研工作者你应该想有没有更好的表述,至少要把所有数的信息都包括吧。那么我们假想一个数,这个数距离所有N个数的距离最短,那么不就有代表性了。想法有了,如何估计呢?这时我们首先定义这个距离,因为肯定有正有负,就用绝对值的和来表示好了:


$d = \sum_{i=1}^{N}(|\hat x - x_i|)$


目标是让这个距离绝对值的和最小,最简单就是暴力搜索,产生一个随机数,计算绝对距离和,找到最小的就完活。但当你真怎么做就会发现,最中间那个数或最中间两个数的均值总是最小。此时你脑中要出现一句提醒——是不是有收敛的解析解啊?

我们把这N个数从大到小排排坐,然后把最大的跟最小的分到一组,次大的跟次小的分成一组,按照我们的距离定义,那个到所有数绝对值和最小的数一定会在这样一组数的中间,那么把这个洋葱壳结构逐层去掉,最中间的那个数就是我们要找的数。统计学上叫做中位数,但其实本质上定义就是这样。也许你会说跟众数比似乎找到这个数直接扔掉了98或99个数,信息保留的不是更少了吗?别忘了我们对信息有一个排序的过程,这个过程本身保留了代表性的信息,虽然看上去中位数没有经过多少计算,其实背后的思想可以看作最小化了一组数跟它距离绝对值的和。

看到这里可能你会觉得为什么不用均值呢?其实均值模拟的是到所有数距离平方最小的那个数。也就是


$d = \sum_{i=1}^{N}(\hat x - x_i)^2$


这个距离最小化就不用排序了,牛顿跟莱布尼茨早就告诉你方法了——求导。因为是二次方程,求导得到解析解就是均值,不信你自己算算。

不论用众数、中位数还是平均值,其背后大致都有个代表性的数学抽象过程,求解需要借助数学工具。同时要注意到其中掩饰很深的东西,那就是虽然数学求解是客观的,但选择使用哪个数或直接读出所有数其实是你来决定的,那种都可以,都有道理,本质上都是信息精简过程中的压缩方法,没有优劣之分,看你对数据的洞察与想解决的问题来定。学知识一定不能学死而是要学活,灵活使用工具讨论科学问题,学术圈自会给出评价。

p值

关于抽象,另一个案例是p值。关于p值几乎是科研数据分析的周期讨论话题,本来Fisher提出p值根本就没想过有原假使跟备则假设这种设计,而在Neymann-Pearson提出的原假设跟备则假设的体系构架里也没有p值0.05或0.01的设计,但确实是有置信水平跟功效这一说,对应了拒绝域、假阳性、假阴性等一堆概念。也不知道从哪个时候开始就有人把两个理论捏到一起用到科研里去了,但背后的思想非常不同。

首先,Fisher跟Neymann-Pearson体系解决的是科学决策问题。其实把科学跟决策放到一起是有点矛盾的,科学关注的是事实真相背后有规律性的客观的东西(当然量子力学对这个想法的冲击很大)而决策则比较主观,存在选择过程,但真相如果只有一个(此处应该有柯南主题曲作为背景音乐)应该是没得选啊?那是理论,现实是多数情况你根本就不知道真相,只有一堆假说,但根据事实你可以对假设进行检验。Fisher跟Neymann-Pearson体系为这个过程提供一个很靠谱的推导工具,这也最终让统计学广泛的应用于各个学科。

具体到Fisher的p值体系,背后的思想是在某假说下这件事发生的概率是多少,例如人群身高是正态分布,那么你看到一个人身高3米,在你假设的人群分布中出现这个身高及以上的概率极低,那么我就有理由认为你看到的不是一个正常人。Fisher这个说法只有单一假设,决策的也是单一假设的可能性。老爷子当年莫名提出了一个0.05的阈值,认为低于这个数假设就不大可能出现,但这个数莫名其妙的成了Neymann-Pearson体系的alpha值。

好了我们再看下Neymann-Pearson体系,这个体系有两个假说,如果拒绝A就要接受B,同时也定义了假阳性与假阴性,也就是犯错的概率衡量。我们可以得到某个假设下统计量的分布,然后比对的这个统计量是否在拒绝域里,如果在,那么拒绝这个假设,接受备则假设。当然接受原假设但备则假设如果跟原假设统计量设计的比较近时,你就有概率得到假阳性结果,或者说区别不了两个假设。而备则假设如果跟原假设统计量设计的比较远,那么当你拒绝原假设时也有风险得到其实备则为假原假使为真的情况。这就对应的统计学功效分析与错误发现率等多个分支。如果你看到这里看晕了也没什么关系,因为这个体系就是很复杂,Fisher对此也没啥好感,他也不会认可功效分析这种有点拖泥带水的设计。同时,这个体系是频率学派的,也就是多次实验后这个结果应该是稳定的。

在实际科研的假设检验中是结合了这两个体系的异类,会计算空假设的p值,但用p值来对比Neymann-Pearson体系的alpha值看在不在拒绝域里来决定是否采纳空假设。这个体系被诟病最多的地方在如下几点:

- 在实际科研实验设计时,实验组与对照本来就应该有区别,而假设检验在这个大环境下发挥的作用有限

- 这个体系可以拒绝掉一个假设但不能证明一个假设,且拒绝与接受都存在错误率控制

- 重视假阳性而不重视假阴性,科研人员使用时很容易忽视掉功效分析

- 置信水平跟p值本质是俩概念,但科研人员使用时经常用词不当

- 科研人员对0.05这个阈值有迷之选择偏见

- 多重比较问题

具体就不解释了,但要注意的一点是这些问题的提出者往往是贝叶斯学派的,其替代方案自然也是基于贝叶斯推断的方法:给一个先验分布,用数据计算似然度,然后用贝叶斯公式更新出后验概率。在进行推断时只要对比后验概率与假设条件下的概率的比值就可以了,大于1说明更可能发生,小于1说明更不可能发生。这个推断过程自然不会有错误率的问题,但也会犯错,例如这个比值搞不清出变化方向,也不好衡量与评价变化的数量级,但对于决策似乎更简单明了。当然,我很怀疑会不会被推广,因为贝叶斯推断目前并不在多数学科的统计学教学体系内,虽然论文里经常涉及。同时频率学派跟贝叶斯学派的矛盾是哲学层面的,即便数学形式上是一致,解释起来也完全不同。频率学派总会去质疑贝叶斯学派那个莫名其妙的先验概率,而贝叶斯学派也会去嘲讽频率学派那个多次实验中有几次错误的说法,很多实验就只能做一次,我关心那么多次干嘛?

科学决策

科研中论断的真假都可以看作一个决策过程,也就是说上面的判断方法都是各学科里默认的方法论。如果结论是拒绝某个假说或接纳某个假说,在具体学科的理论大厦里就可以加入某个定理。但一定不要忘记这是个决策过程,认可是该学科共同体(具体到论文可能就是编辑加几个审稿人)主观接受的,存在大家都错了或都看走眼的可能,也因此不要对很多报道的新鲜研究成果有太多信心,更可能的情况是分工精细的小圈子的群体决策,虽然好过自吹自擂,但也可能只是披着数学统计学还有本学科知识框架的外衣的一个假说或现象阐释,不保真。大众读者在这上面没判断力是正常的,具有数理基础的人不要被轻易忽悠,存疑是科研的美德。

除了基于事实与实验的科学决策,也存在其他的决策方式,例如直觉决策,逻辑推理决策等。从最终效果上看,并不存在某种决策方法能在所有场景下都玩得转。而且,在做出某项决策后,其判断会不断反馈影响到后续的决策过程。如果一个人觉得一直都判断准确,很有可能多个判断间存在相关与反馈而不说明这个判断在真实意义上的正确。其实可以尝试这样的思想实验,你如果做了另一个判断,是否也会出现类似的正反馈。这样去想很多事或规律在历史上的正确只能称作经验事实正确,基于经验事实提取的规律可以保稳,但能产生变数的决策是要具有前瞻性的,或者说如果某件事处于僵局,经验不起作用而动态反馈的决策方法更可能有效改变僵局。举个例子,如果乔布斯不做触屏手机,那么现在大家用的大概率还是智能键盘机,而在是否用触屏的问题上当时并无太多经验可以借鉴。虽然现在手机触屏成了标配与主流,但其产生时的决策依然是高风险的甚至是任性的,当然历史你没得假设。

现在热炒的大数据很大程度上依赖于挖掘现有的行为规律然后定向营销,一个可预期的后果就是商家的销售行为会让潜在的规律变的明显,让消费者回归到他可能隶属于的消费类型,这无疑会加剧社会的割裂。举个例子,我在某个引入人工智能的推荐系统里很偶然的对一个其实喜欢的书点了一个不喜欢,后果就是基于个性化的推荐算法再也不会给我推荐这个类型的书。假设我买书是个低频行为且只依赖大的网络电商,那么某个偶然的行为就可以完全让某个类型的书彻底退出我的视野,就好像从来没存在过一样。基于此,我倒有点想念不那么智能甚至低效的推荐系统,起码它会给我我不想要的,而看书这件事,我并不在意看到不同意见,反倒是全是熟悉的意见会让我自大且固步自封,但却对商家有益。说到底还是需要公益的非盈利的人工智能的推荐系统,我可不想总是遇见熟悉的环境而被隔离开。同理,决策上也最忌讳一意孤行,起码在科研数据分析中,要抽象的去理解不同决策过程背后的东西,方法的背后有艺术。

Science is more than a body of knowledge; it is a way of thinking. … The method of science, as stodgy and grumpy as it may seem, is far more important than the findings of science.


— Carl Sagan

参考文献:

- 《女士品茶》

- 《环境与生态统计:R语言的应用》

- Modes, Medians and Means: A Unifying Perspective

- You searched for p value - Statistical Modeling, Causal Inference, and Social Science




https://wap.sciencenet.cn/blog-430956-1040288.html

上一篇:回归、安慰剂与流行
下一篇:婴儿潮、棉花糖与ABM
收藏 IP: 129.97.124.*| 热度|

9 陈全胜 黄永义 周健 梁洪泽 强涛 杨正瓴 张鹰 赵凤光 zjzhaokeqin

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 08:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部