科学网-学术研究可重复性试验结果堪忧-孙学军的博文

学术研究可重复性试验结果堪忧

2023-10-13 09:10

阅读：5037

过去曾经对心理学研究进行过重复性研究，发现可重复性不理想。现在对生态学数据进行可重复性研究，结果发现，不同学者对同样的研究数据会获得不同的结论。学者分析性偏倚在生物学和医学领域可能存在普遍性，这也提醒我们在引用和分析文献时，应该保持更清醒的心态，尽量不要被发表数据和观点的影响，否则可能会出现非常大的系统错误。有一位已故老师30年前告诉我，学术工作来不到半点马虎，因为纠正学术错误往往需要10倍以上的证据和努力。现在回想起来，这是真知灼见。不过现在的学术领域，故意错误信息满天飞，许多学术论文越来越接近新媒体文章，让人更加担心。

Reproducibility trial: 246 biologists get different results from same data sets (nature.com)

这项大规模的可重复性研究调查了200多名生物学家对同一组生态数据的分析，结果却大相径庭。这是生态学中首次全面的研究，展示了该领域结果可以有多大的变异，而这种变异不是因为环境的差异，而是由于科学家的分析选择。

这项研究的联合作者、澳大利亚墨尔本大学生态元研究者汉娜·弗雷泽说：“有一种倾向，就是将个别论文的结果视为决定性的。”但是结果显示，“我们真的不能依赖任何个别结果或任何个别研究来告诉我们整个故事”。

弗吉尼亚州夏洛茨维尔开放科学中心执行董事布莱恩·诺塞克表示，结果的变异可能并不奇怪，但在正式研究中量化这种变异可能会促进更大的改善可重复性的运动。他在社会科学领域推动了关于可重复性的讨论。

他说：“这篇论文可能会有助于将生态学和进化生物学中这个相对较小的、有改革意识的社区整合成一个更大的运动，就像我们在心理学中所做的可重复性项目一样。”对于这个领域的许多人来说，“要认识到这一结果对他们的工作产生的深远影响是很难的”。

这项研究于10月4日作为预印本发表。尚未经过同行评审。

复制研究的根源

许多分析师方法是由心理学家和社会科学家在21世纪10年代中期率先提出的，因为他们越来越意识到该领域中的一些结果无法被复制。这种方法给予多个研究人员相同的数据和相同的研究问题。然后作者可以比较数据收集后的决定如何影响最终发表的结果类型。

弗雷泽和她的同事将许多分析师方法引入了生态学。研究者给科学家参与者提供了两个数据集和一个附带的研究问题：“蓝山雀（蓝翅山雀）雏鸟的生长受到兄弟姐妹竞争的影响有多大？”或者“草皮覆盖如何影响桉树幼苗的招募？”

大多数检查了蓝山雀数据的参与者发现，兄弟姐妹之间的竞争对雏鸟的生长有负面影响。但是对于这种影响的大小，他们之间存在很大的分歧。

关于草皮覆盖对桉树幼苗数量的影响的结论表现出更大的差异。作者对这些数据的平均效应大小进行了平均，并发现没有统计学上的显著关系。大多数结果只显示了微弱的负面或正面影响，但也有例外：一些参与者发现草皮覆盖极大地减少了幼苗数量。其他人则得出结论，草皮覆盖极大地增加了幼苗数量。

作者还通过让另一组科学家审查参与者的结果来模拟同行评审过程。审稿人对桉树分析中最极端的结果给出了较差的评价，但对蓝山雀分析的结果却没有这样做。墨尔本大学生态模型师、该研究的合著者埃利奥特·古尔德说，即使在作者排除了审稿人评价较差的分析后，集体结果仍然显示出巨大的差异。

正确还是错误

尽管结果范围广泛，但弗雷泽说，没有一个答案是错误的。相反，这种差异反映了参与者的训练程度以及他们设定样本大小的方式等因素。

古尔德说：“你怎么知道什么是真正的结果呢？”解决方案的一部分可能是要求论文的作者列出他们做出的分析决策，以及这些选择的可能警告。

诺塞克说，生态学家还可以使用其他领域常见的做法来展示一篇论文的潜在结果范围。例如，经济学中常见的稳健性测试要求研究人员以多种方式分析他们的数据，并评估结果中的变异量。

但由于生态学学科内部的复杂性，理解分析变量如何影响结果是特别困难的。“这个领域的基础是观察性的，”威斯康星大学麦迪逊分校的民族志学者妮可·纳尔逊说：“它就是坐下来观察自然世界对你扔出的东西——也就是大量的变异。”

论文摘要

尽管类似现象研究中效应大小和预测值的变化是不可避免的，但这种变化远远超过仅通过抽样误差可能产生的变化。结果差异的一种可能解释是研究人员在统计分析决策方面存在差异。越来越多的研究探索了不同领域（主要是社会科学）的这种分析变异性，并发现结果之间存在很大差异，尽管分析师具有相同的数据和研究问题。我们在生态学和进化生物学中实施了一项类似的研究，在这些领域，没有对不同研究人员的分析决策产生的效应大小变化或模型预测进行实证探索。我们使用了两个未发表的数据集，一个来自进化生态学（蓝山雀，Cyanistes caeruleus，用于比较兄弟数量和雏鸟生长），另一个来自保护生态学（桉树，用于比较草覆盖和树苗招募），项目负责人招募了174个分析团队，包括246名分析师，以调查预先指定的研究问题的答案。这些团队进行的分析为蓝山雀数据集产生了141个可用效应，对桉树数据集产生了85个可用效应。我们发现两个数据集的结果之间存在很大的异质性，尽管它们之间的变异模式不同。对于蓝山雀分析，平均效应是令人信服的负效应，与更多兄弟姐妹生活的雏鸟的生长较少，但效应大小几乎连续变化，从大的负面影响到接近零的影响，甚至效应在相反的方向上超过了传统的统计显著性阈值。相比之下，草覆盖率与桉树幼苗数之间的平均关系仅略微负，与零的差异并不令人信服，大多数效应从弱负到弱正，约三分之一的效应在一个方向或另一个方向上跨越了传统的显著性阈值。然而，在Eucalyptus数据集中也有几个引人注目的异常值，其影响远非为零。对于这两个数据集，我们发现分析中的变量选择和随机效应结构以及同行评审员对分析方法的评级存在很大差异，但我们发现这些与meta分析平均值的偏差之间没有很强的关系。换句话说，与发现结果接近平均值的分析相比，结果远离平均值的分析或多或少不太可能具有不同的变量集，在其模型中使用随机效应或接受较差的同行评审。分析结果之间存在实质性差异，这引发了生态学家和进化生物学家应该如何解释已发表结果以及他们未来应该如何进行分析的重要问题。

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。

链接地址：https://wap.sciencenet.cn/blog-41174-1405743.html?mobile=1

当前推荐数：8

推荐人：

王涛焦飞曾跃勤郭战胜杨正瓴崔锦华贾玉玺郁志勇

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录