孙学军
解决论文可重复性难题的思路
2023-9-27 10:39
阅读:1294

学术研究论文是学术交流的重要载体,但现在早就异化为学术成果展示模式,由于学术论文额外的功利性功能,导致学术论文本身的可靠性存在很大问题。这里提供了一种方法,就是成立一种重复研究组织或活动,并把重复数据形成论文发表。

Replication games: how to make reproducibility research more systematic (nature.com)

Illustration of a group of scientists in a gym watching whilst research papers work out with weights and do gymnastics.

去年10月,我们其中一人(Abel Brodeur)决定在奥斯陆的一个研究中心举办一次特别研讨会,试图重复经济学期刊上的论文。与预期的少数当地人参加者不同,来自全欧洲的70人报名参加了研讨会。信息很清楚:研究人员希望重复已经发表的研究。

研究重现性是非常需要的。在社会科学领域,如经济学、哲学和心理学,一些研究表明,当使用新数据进行测试时,35%70%的已发表结果无法重复1-4甚至使用与原始论文相同的数据和代码,研究人员也无法重复结果,因为关键信息缺失。

然而,大多数期刊不会发表重复研究的结果,除非它否定的是一篇有影响力的论文。在经济学领域,2010年至2020年间发表在前50名期刊中的论文中,只有不到1%是某种类型的重复研究5。这表明许多存在错误的研究都没有被发现

在奥斯陆研讨会之后,我们决定在我们的经济学和政治学领域使重复努力更加系统化。我们的虚拟、非营利组织——重复研究所(Institute for Replication)现在举办为期一天的研讨会——称为重复游戏(replication games),以验证研究。

202210月以来,我们在全欧洲、北美和澳大利亚举办了12次研讨会,今年还将安排3次。每次研讨会通常涉及约65名研究人员组成3-5人的团队,重新分析大约15篇论文。团队要么尝试通过生成新数据并重新检验假设来重复论文,要么尝试通过检查如果重新分析已发表数据结果是否仍然成立来重复论文。对于我们学科的许多论文来说,结果的再现通常涉及重新运行计算机代码,因此可以在一天内完成大部分工作(见典型的重复游戏项目)。每个团队的发现都会作为预印本报告发布,这些报告将每年整理并作为论文出版。

典型的重复游戏项目想象一下一篇(假设的)论文,它调查了2020年在美国德克萨斯州实施的政府政策的影响,该政策将相邻各州作为比较组。该论文使用了2018年至2022年之间收集的数据作为一项公开发布的全美国调查的一部分。进行研究的研究人员做出有关执行哪些统计测试、使用哪些控制变量等的决定。

重复游戏中,一个团队可能会尝试通过在他们自己做出有关适当方法、控制组等的决定的情况下重新运行相同的分析来重复这篇论文。

该团队可能会尝试通过询问如果在比较组中使用更多的州结果是否仍然相同,或者如果日期范围扩展到2015年至2023年,使用同一调查的数据来重复它。或者,研究人员可能会使用提供类似数据的另一种调查来执行他们的重复

研究团队在游戏前一个月组成。重复者阅读论文并制定计划,以便在游戏当天完成大部分工作。活动结束后,重复者完成任何剩余的工作,并就他们的结果撰写一份简短的报告,在结果公开之前与原始作者分享以获得他们的评论。

短短几个月内,我们重复游戏的参与者已经找到了包含重大编码错误和识别了许多无法完全重复重复的研究的论文(以及许多稳健的结果)。我们希望在今年晚些时候创建一个我们研究成果的公开可用数据库。

我们需要更有组织的可重复性和类似于我们的重复工作。其他领域可能需要不同的格式——我们目前评估的论文大部分是非实验性的,而重新进行实验可能需要数月时间并需要专业设备。然而,我们认为我们从经验中获得的三堂课可以帮助那些希望扩大重复工作的人。

建立合作关系以帮助扩大重复规模 要评估大量论文,与研究中心和大学合作至关重要。例如,我们当前的目标是在具有高影响因子的期刊上重复重复研究——具体而言,从2022年起在8个主要的经济学期刊和3个主要的政治学期刊中发表的实证研究论文中的25%,共计每年约350篇论文。然后我们计划扩展到社会科学的其他领域。

一项统计分析不能解决所有问题

拥有一个举办我们游戏的机构有助于招募重复者。没有他们,我们将难以找到除自己领域之外的专家。得到大学的支持有助于提高当地研究人员对重复需求的认识,而这些研究人员网络为扩大重复工作提供了更多机会。例如,由于在游戏期间建立的联系,我们希望不久后能在肯尼亚和日本举办研讨会。

更广泛的伙伴关系可以扩大重复工作的范围,不仅仅局限于学术论文。今年早些时候,我们受邀与国际货币基金组织(IMF)和世界银行合作举办重复游戏,以评估这两个组织的经济学和金融论文。我们的目标是每年都举办这些游戏,不仅验证学术研究,还验证政策导向的报告。

建立这些关系并不需要花费太多时间。我们发现,只需在推特上宣传我们的项目并在会议上谈论就可以引起兴趣。再加上奥斯陆研讨会之后的口碑传播,这已经足以使我们的项目在经济学家中广为人知。因此,与我们合作的原始组织主动联系我们,而不是反过来——请求参与。

其他效仿我们脚步的研究人员应该注意避免利益冲突。我们参与的合作不涉及任何金钱往来,因为接受报酬可能被视为不道德。在IMF和世界银行的游戏中,人们重复和重复同事的工作,我们决定随机分配参与者到一项研究中,允许他们保持匿名,并防止参与者评估直接主管或朋友撰写的研究。

使用调解人保护重复 保护检查论文的研究人员免受职业威胁至关重要——特别是在发现重大错误时。我们建议组织或机构在原始研究作者和重复者之间充当调解人,允许后者在愿意的情况下保持匿名。我们中的一人作为重复研究所的代表在每次重复游戏后担任这一职务。

我们知道收到电子邮件说有人正在检查你的作品可能会让人感到压力。因此,我们会在重复者写完报告后再联系原始作者,以避免在等待研究结果时给研究人员带来不必要的担忧。我们不会将错误的发现视为逮到你了的时刻,这可能会让作者措手不及,而是在我们的通信中承认所有研究人员都会犯错。为了帮助让整个过程变得友好,我们允许作者对报告提出修改建议,并要求重复者对作者的回应提出改动建议。

如果论文的原始作者在经过几周或几个月的多次尝试后仍然不回复我们的电子邮件,我们仍然会发布我们的重复报告。这种方法导致一些人认为我们应该将研究结果提交到发表作品的期刊。我们对此的反驳是,一些期刊编辑可能存在利益冲突,因为发表撤回或更正可能会损害他们的声誉。尽管有这种担忧,但我们确实鼓励重复者将他们的发现提交给期刊——但首先将重复报告作为预印本发布意味着其他研究人员可以自己评估我们的发现如何影响论文的结果。

到目前为止,超过95%的作者回答了我们的电子邮件。事实上,许多作者赞赏调解。通常这是第一次有人重复或重复他们的作品,他们重视在处理发现的任何错误时的支持和指导。随着重复研究变得越来越普遍,我们希望调解所促成的公开、专业和尊重的对话将成为重复者和作者之间的常态。

重复带来个人和职业价值 忙碌的科学家需要激励来进行重复研究。我们认为有趣的是重复游戏成功的关键。许多参与者喜欢参与这一进步的学术运动。虚拟参与的选择意味着研究人员可以免费参加,最大程度地减少了参会障碍。在我们的游戏中将各个职业生涯阶段的研究人员聚集在一起意味着年轻的科学家可以获得导师指导,而资深研究人员则有机会复习编码等实用技能,而年轻同行通常在这些方面表现出色。

可复现性:对科学论文的期望要降低一点

重复工作还应该提供职业激励元论文可以获得很多引用6。为了缓解年轻研究人员的恐惧,参与者应该被允许保持匿名,名字出现在元论文中,但不应附着于特定的重复工作。

对于那些有系统地进行重复的人,生成元论文并不需要花费太多时间。我们正在进行的元论文包括从每个团队获取报告,使用模板填写并编入数据库。

科学家的善意和求知欲足以让我们评估许多论文。但我们希望能够扩大研究范围,包括需要访问非公开数据集的研究(例如行政记录)以及涉及调查的研究,这些调查要求重复者花费数周或数月生成数据,并可能意味着支付参与者参与。在其他领域,涉及实验数据的论文要求重复者具备正确的实验室设置。资助者必须开始支持这些类型的研究的重复重复

提供数据和代码也至关重要。我们的参与者经常花费数小时浏览数据以找到他们需要的变量,因为数据点标记不佳或定义不清。而且论文通常只报告分析结果,而不发布输入原始数据。许多期刊不要求研究人员发布数据,而那些要求发布的期刊往往没有执行相关政策。期刊应该注意宣传和执行编辑指南。

我们认为像我们这样的努力将重复规范化最终将对资助者和期刊施加压力,要求它们发挥自己的作用。我们兴奋地看到我们领域的重复工作以及其他领域的重复工作不断扩大。系统化的重复具有更快纠正科学错误的潜在能力。让游戏开始吧。

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1404003.html?mobile=1

收藏

分享到:

当前推荐数:4
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?