数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

人工智能能否让科研更加开放?

已有 280 次阅读 2025-5-15 22:03 |个人分类:科学交流|系统分类:海外观察

作者:Niki Scaplehorn & Henning Schönenberger

译者:罗曦阳

校译:丁晓

来源:https://blogs.lse.ac.uk/impactofsocialsciences/2025/04/04/can-ai-make-research-more-open/

过去十年的发展表明,开放的信息交流能够显著加速科学进步。在新冠疫情期间,初步研究成果、数据集以及实验方案(报告)的共享激增,可以说加快了疫苗、治疗方法的研发以及有效公共卫生措施的制定。这一时期从实践层面凸显了多元研究成果(而不仅仅是最终发表的论文)的可获取如何促进突破,也标志着开放科学(Open Science)的关键节点。

然而,开放科学仍然面临着巨大的障碍。尽管高质量的数据存储库日益增多,资助者和科研机构也不断出台相关规定,但许多研究人员仍然缺乏持续且一致的指导来以增加价值的方式共享数据,即如何使数据符合可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原则。此外,现有数据共享政策重叠繁杂,使得作者难以判断应在何时、何处、以何种格式存储研究资料。除了这些现实挑战之外,还存在着巨大的文化障碍。例如,在不少学术环境中,数据共享、代码发布和详尽的实验方案(报告)说明尚未得到充分的认可和激励。

以研究人员为中心的人工智能方法

新兴技术,尤其是基于生成式人工智能(Generative Artificial IntelligenceGAI)的技术,或许可以提供部分解决思路,有助于解决将科研成果封锁于机构围墙之内的瓶颈问题。人工智能(Artificial IntelligenceAI)已经在重塑研究生态,并且有可能改变我们对开放科学的看法。值得注意的是,它可以将“开放”措施从资助者或期刊的指令性要求,转变为契合研究人员工作方式的精心设计的“产品化”实践。相应地,这就需要转变思维方式,从自上而下的单向政策执行转向以服务为导向的方式,并且以研究人员的需求和目标为核心。

在实践层面,采用产品思维的首要问题是深入理解研究人员日常工作流程的现实情况。从数据收集和实验设计到代码开发和实验方案(报告)共享,这些环节常常被耗时的行政任务分割得支离破碎。因此,如果开放科学被定义为“政策要求”,对本就不堪重负的学者们而言,可能会是一种额外的负担。

以施普林格·自然(Springer Nature)近期的一项试点研究为例,其要求作者在最终录用前说明未共享数据没有存入公共存储库的原因。仅此一项要求,便将参与期刊的数据共享合规率从51%提高到了87%。然而,虽然这种编辑介入的方式显然有效,但仅依靠人工监督手段难以将其扩展到数百种期刊。

这正是生成式人工智能大有可为之处。通过自动创建元数据、标记被忽视的共享要求以及建议最佳实践流程,生成式人工智能工具使得研究人员能够专注于科学发现而非文档记录。更重要的是,AI工具可以更直接地将研究人员与开放所带来的益处联系起来,例如数据集的引用、代码使用情况或实验方案(报告)的采纳,从而更全面地反映研究人员的科研贡献。

目前,施普林格·自然正在部分开放获取期刊上与作者进行小规模的试点,以观察生成式人工智能是否可以用于识别传统文章中隐藏的有前景的数据集,并有助于将其转化为数据手稿。更关键的是,作者随后可以审阅和编辑这些草稿,确保最终文本准确反映其研究工作并符合学术社区标准。这种“人在环路(human-in-the-loop)”的参与方式,是确保生成内容的准确性和完整性的关键。

最终,以研究人员为中心的人工智能方法使生成工具成为研究流程的一部分(而非全部),鼓励和支持详细的文档记录以及更好的数据管理。开放科学也不应被视为“额外负担”,而是应作为科研基础设施的一部分,这有助于确保开放、公平和创新成为常态。此外,一旦数据集被共享,相关的实验方案(报告)、代码和补充材料也更有可能得到同样的重视和认可。

仅仅依靠工具难以驱动变革

当前,研究过程以互信交换为基础:研究人员获得机构、资助者与社会的支持,作为回报,他们共享其研究成果。迄今为止,这一机制主要围绕发表论文而展开。然而,在当今这个高度互联和数据驱动的世界里,这种模式已经难以完整地反映现代研究成果的多元形态。如果一个体系只看重最终论文,往往会遗漏更广泛的研究贡献,同时抑制了促进合作、可用性和可重用性的开放文化。

各类研究机构甚至整个科研行业,均可以通过学术晋升、资助决策与绩效评估机制更好地识别、推动和支持科研生命周期的的各个环节。在学术交流中,激励机制的变革似乎总是遥不可及,但如果我们可以认可那些共享可复制数据集、发布记录良好的代码或者完善并传播实验方法的研究人员,我们就有望建立一种新的评价体系,在这个体系中,创建高质量数据集或被广泛使用的软件工具可以获得与撰写论文同等的认可。

技术仍是实现这一目标的关键,它提供了衡量和展示这些贡献的基础设施。正如DataCite倡议等合作项目以及施普林格·自然的AI试点工作所展示的,AI可以识别出版物中引用的特定数据集、代码片段或方法论实验方案(报告)。这种细粒度的追踪和链接为共享研究对象如何影响后续工作提供了有力证据,并且扩大了可引用、计算或奖励的范围。过去,引用指标一直主导着对研究文章的评估,而AI驱动的分析,有望为揭示基础研究内容价值提供更广泛的信号。如果在高校或资助机构的评估体系中谨慎地使用这些指标,将更好地支持那些优先考虑开放性的研究人员。

减轻共享过程中的实际阻碍同样重要。基于AI的平台可以引导研究人员遵循出版商或资助者的要求,自动生成元数据,并推荐相关的存储库。这不仅节省了时间,还鼓励了更详细的记录与更广泛的可获取性,从而加强了作为社会契约核心的透明度和信任。相应地,一旦开放科学的实施变得不那么繁琐和耗时,也就更有可能被研究人员所接受。

实现开放的益处

AI系统和工具围绕研究人员的实际需求设计时,它们能够简化数据共享的要求,自动处理繁琐的合规环节,并提升原本被忽视的科研贡献的可见度。这降低了开放科学的门槛,使数据、代码和实验方案(报告)的存储变得更加简单且更具吸引力,以便他人能够轻松检索并重用。

最终,这种以人为本的政策设计与AI驱动的便利机制之间的协同合作,不仅惠及研究人员,也将造福依赖科学进步的每个人。政策制定者和从业者能够更便捷地获取更多数据,从而做出更明智的决策;资助者可以确保投资能够带来可广泛获取的资源;公众则能更清晰地了解自己所支持的研究内容。尽管目前的AI科研愿景似乎常常将研究人员视为次要因素,但若能在更广泛的学术视野下协调技术与激励机制,科研生态将有望迈向为一个更加开放、公平且充满新发现潜力的未来。



https://wap.sciencenet.cn/blog-521339-1485895.html

上一篇:学术专著的第二次数字化转型?
收藏 IP: 27.23.145.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-16 05:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部