本文首发于意得辑专家视点:康奈尔大学教授因操纵 P 值,被撤稿及被警告文章累积达 29 篇
转载请联系小编,图片源自flickr 作者 fickleandfreckled
碗/盘子越大,人就吃得越多,换成小碗能避免吃太多。
用剧下饭容易吃撑,最多能比平时多吃 60%。
有女性在场时,男性会吃比正常饭量更多的披萨。
国内外教人健康饮食的网站没少援引这些有网感的研究。别以为这是什么爱瞎搞的机构出的调查,它们都出自康奈尔大学食物与品牌实验室 (Cornell Food and Brand Lab)。
这个实验室的负责人 Brian Wansink 是行为心理学出身,主攻饮食、健康领域的研究。除了搞科研,Wansink 还著有畅销书《无意识饮食》,经常在主流媒体露脸教人怎么吃、怎么减肥,可以说是该领域目前最火的研究者之一。
不过,这人最近又出事了。
5 月 8 日,《美国医学会杂志》(JAMA) 主编 Howard Bauchner 在其网站上贴出了对 Wansink 早前发表的 6 篇论文的关注声明 (Expression of Concern),并严词警告学术圈对这些论文中的研究效度加个小心。
JAMA主编关注声明,图片来自:JAMA Network
Bauchner 主编在声明中表示:“医学期刊最重要的特质之一是准确,而Wansink 频繁(被)撤稿的现象给他的研究带来了很多不确定性,我们已经要求康奈尔大学重新评估他的研究,在积极的结果出现之前,我们不会撤销关注声明。”
这不是 Wansink 第一次和学术不端扯上关系。早在去年底,他就因为一年内有 5 篇论文被撤稿(其中一篇被撤两次)、论文修改 13 次,而被《科学人》列入 2017 年度十大撤稿事件。据《撤稿观察》 (Retraction Watch)的数据显示,到目前为止,Wansink 所涉及的期刊撤稿和关注声明一共 29个。根据撤稿时间倒序,我们将其中被撤稿的 7 篇论文整理如下:
序号 | 文章 | 发表期刊 | 发表日期 | 撤稿日期 |
1 | Shifts in the Enjoyment of Healthy and Unhealthy Behaviors Affect Short- and Long-Term Postbariatric Weight Loss | Bariatric Surgical Practice and Patient Care | 3/01/2017 | 3/19/2018 |
2 | Attractive names sustain increased vegetable intake in schools | Preventive Medicine | 07/27/2012 | 02/26/2018 |
3 | Profiling taste-motivated segments | Appetite | 10/30/2003 | 01/13/2018 |
4 | How Traumatic Violence Permanently Changes Shopping Behavior | Frontiers in Psychology | 09/06/2016 | 11/24/2017 |
5 | Can Branding Improve School Lunches? | JAMA Pediatrics | 10/01/2012 | 10/20/2017, 09/21/2017 |
6 | Low prices and high regret: how pricing influences regret at all-you-can-eat buffets | BMC Nutrition | 11/19/2015 | 09/15/2017 |
7 | Sensory Suggestiveness and Labeling: Do Soy Labels Bias Taste? | Journal of Sensory Studies | 11/01/2002 | 04/10/2017 |
所以,他的研究到底出了什么幺蛾子?
1. 论文重复发表、自我抄袭
Wansink 于 15 年发表的一篇论文和他 13 年的论文有 1376 字重复,虽然他把自己的论文加进了参考文献中,还是被期刊要求修改。
相似的,另一篇发表于 2003 年关于大豆的论文因为一稿多投而在去年被撤稿。
2. 样本年龄错误
Wansink 于 2012 年发表在期刊《预防医学》 (Preventive Medicine) 上、现已被撤稿的一篇论文,研究了小孩吃蔬菜这件事。他发现如果给难吃的蔬菜取个酷点儿的名字,比如“X 射线眼胡萝卜”,会让小孩改变心意,爱上胡萝卜,从而提高蔬菜摄入。不过,后来 Wansink 承认实验样本并不像论文里写的是 8-11 岁的学生,而是 3-5 岁的小朋友。
3. 用结论操纵数据、数据作假
Wansink 和其团队的邮件记录证实,他在许多研究中操纵数据。比如在一个有关自助餐的项目中,Wansink 要求实验室的研究生根据 p 值倒推变量,尝试不同变量,直到得出“一看就能火”的结果才行。
事实上,学术界对 Wansink 这些受欢迎的研究是否具有信度和效度早存在争议。来自波士顿东北大学的 James Heathers 自己编程,通过统计学原理,从一些已经发表的研究结果中推出原数据的可能面貌。
在跑完 Wansink 的几十篇论文数据后,他发现了 150 多处数据不一致。其中就包括上面的提到的胡萝卜实验。要得到和实验数据相匹配的结果,其中某个样本需要吃掉 60 个胡萝卜。对于 Wansink 给出的“实验用到的是只有正常大小 1/4 的小胡萝卜”,期刊编辑认为非常牵强。
Buzzfeed 对 Wansink 事件进行了一系列报道,他们结合学界其他研究者的意见,认为这些论文中出现的数据不一致,主要是 Wansink 团队在 p-hacking。
关于 p 值,以及它有什么问题?
在研究型论文中,多数研究者会使用假设检验的方法来统计概率。简单来说,假设检验的逻辑过程有 4 步:
提出问题,同时根据问题作出两个相反的假设,即零假设和备选假设
根据样本数据,算出零假设成立前提下,样本观察结果出现的概率,也就是 p 值
按照学术界标准,当 p<=5%,也就是我们常说的实验结果显著
得出结论,零假设被否认
为了让实验结果显著,大研究人员都受到不少来自 5% 这个硬指标的压力。感受一下豆瓣网友翕如这张饼图:
图片来自:豆瓣
为了使 p 值好看,统计时一旦 p 值显著就停止收集数据、根据 p 值显著性倒推变量、删掉一些初始变量改变 p 值等操作都属于 p-hacking。
这也就使容易被人为操作成为 p 值的一个黑点。反对 p 值的研究者认为,p值应该作为衡量实验结果的参考,而不是唯一标准。意得辑专家视点此前就报道过,为了说明 p 值的存在的问题,期刊《Basic and Applied Social Psychology》(BASP) 在 2015 年宣布禁用假设检验及相关的统计程序。
此外,p 值的可重复性低也一直是个问题。弗吉尼亚大学的心理学教授 Brian Nosek 花了 3 年时间和同行研究者对 100 个已经发表的研究重新测试。这些早先 p 值显著的研究中,只有 36% 在二次实验中 p 值依然显著。p 值的不稳定性和样本体量、环境、学科领域间等因素有关。比如在上述项目中,认知心理学研究中的 p 值可复制率是社会心理学研究的两倍。
意得辑专家视点相关阅读:
****** ******
关注“SCI 发表辅导”,恪守良好发表实践
转载本文请联系原作者获取授权,同时请注明本文来自Editage意得辑科学网博客。
链接地址:https://wap.sciencenet.cn/blog-769813-1123683.html?mobile=1
收藏