孟平
科研评价的未来模式:人机协同
2025-3-31 09:15
阅读:306

在科研评价中,论文质量评估历来依赖耗时费力的人工评审方式。但随着大语言模型(LLMs)的兴起,学界开始探索其在科研评价方面的潜力。

普赖斯奖得主Mike Thelwall对人工智能在科研质量评估方面进行了一系列开创性的探索。他在2024年发表的文章《Can ChatGPT evaluate research quality?》(详细阅读)以自己的51篇信息科学领域的期刊论文为样本,基于REF科研卓越框架测试了ChatGPT-4自动化评估科研论文质量的可行性。研究指出了LLMs在评价研究质量中存在相当的局限。

那么,如何构建更可靠的自动化评价体系?

最近发表的两项研究初步回答了这个问题。基于前述研究的数据集和样本,Mike进一步系统对比了LLMs评估得分与人工自评得分的相关性,包括:模型选择(Chat GPT-3.5-turbo、GPT-4o、GPT-4o-mini及Google Gemini 1.5 Flash)、输入方式(标题、标题+摘要、删减全文、完整全文及PDF)和提示词策略(从极简指令到完整评估框架)等几个方面。

模型选择:性能与成本的博弈

1. ChatGPT 不同模型的评估能力相近,但性价比差异显著

  • GPT-4o以微弱优势领先(r=0.67),GPT-4o-mini表现接近GPT-3.5-turbo(r=0.66)。

  • GPT-4o的使用价格是GPT-3.5-turbo的10倍,ChatGPT 4o-mini 的20倍。

ChatGPT 4o-mini, ChatGPT 3.5-turbo and ChatGPT 4o score prediction correlations against human scores for 51 information science article titles and abstracts. Averages over n iterations and confidence intervals are calculated as in the methods.

图1. 不同ChatGPT模型在评估文章质量时的表现对比

2. ChatGPT 4o-mini和Gemini1.5 Flash 在不同学科的评估表现存在差异

  • 生命科学、物理学等数据密集型学科两类模型表现最佳,ChatGPT的整体平均相关性(0.409)略高于 Gemini(0.399)。

  • 但在临床医学学科, ChatGPT 的相关性呈现负值Gemini 相关性虽仍为正值,但偏低。

  • 人文艺术学科,两种模型的表现普遍偏低。

Spearman correlations between Gemini 1.5 Flash scores and departmental average REF2021 scores. Also shown are equivalent correlations from ChatGPT 4o-mini and, as a benchmark, the correlation between article scores and departmental average REF2021 scores. Error bars are 95% confidence intervals for the assumed infinite population of similar articles.

图2. 不同学科领域的模型评分相关性对比

针对学科特点选择模型组合——数据密集型领域可优先考虑ChatGPT,人文艺术学科可选用低成本模型,而临床医学评估需审慎验证。

输入方式:“标题+摘要”为最佳组合

输入内容的长短与格式对结果影响显著。

1. ChatGPT少即是多

  • 摘要+标题输入时,ChatGPT各模型与人工自评得分的相关性更高 (r >0.67)。

  • 输入“节选文章内容”并不能提高与人工自评得分的相关性。

表1. 不同输入方式对ChatGPT评分相关性的影响

2. Gemini的长文本优势

  • Google Gemini 1.5 Flash在处理PDF或完整全文时表现更优(r=0.645)。

  • 但若仅输入标题+摘要,Gemini的表现逊于ChatGPT。

Spearman correlations between Gemini 1.5 Flash scores and the author’s scores for 51 library and information science articles, against the number of repetitions averaged. Each line represents a different amount of input. Error bars are 95% confidence intervals for averaging within the data collected.

图4. 不同输入方式、迭代次数对Google Gemini 1.5 Flash评分相关性的影响

若评估需快速初筛,优先选择标题+摘要输入;若需深入分析含图表的PDF或全文,可尝试Gemini,但需权衡成本与精度。

迭代次数与提示词:提升稳定性

多次运行与精细提示词设计能显著提升结果可靠性。

1. 迭代次数

  • 二者迭代次数与精度呈正相关,30次迭代后评分稳定性显著提升。

2. 提示词复杂度

  • 包含完整REF评估框架的复杂指令(Strategy 6)效果最佳。

  • 单纯要求评分而不提供分析框架的指令(Strategy 0)表现最差。

ChatGPT 4o score predictions based on abstracts (average of 30) against human scores (from the author) for 51 information science article titles and abstracts with seven different system prompts. Strategies 1-5 are abbreviations of Strategy 6,the full REF instructions, and Strategy 0 is a brief instruction without a request for justification.

图5. 不同复杂程度的系统指令对ChatGPT评分的影响

定制任务专属提示词,并设置多次迭代,可最大限度释放模型潜力。

挑战与展望:

LLMs能取代人工评审吗?

尽管ChatGPT与Gemini在论文质量评估中展现出突破性潜力,但局限仍存:

① 学科差异显著:模型在生命科学、物理学等领域的表现优于人文艺术领域。

② 单篇评估风险:即便优化后,模型评估得分的平均误差仍达0.5,重要决策需人工复核。

③ 黑箱逻辑隐患:模型可能依赖期刊声誉或热度打分,而非基于内容质量本身。

当前,大语言模型尚不能替代专家进行科研评估,但其作为“智能初筛工具”的价值已不容忽视。或许不久的将来,可以实现从“人工主导”到“人机协同”的科研评估变革。

欢迎感兴趣的读者撰文讨论。

Research Papers

Evaluating research quality with Large Language Models: An analysis of ChatGPT’s effectiveness with different settings and inputs

基于大语言模型的科研质量评估:ChatGPT在不同设置与输入条件下的效能分析

Mike Thelwall

Information School, University of Sheffield, UK

DOI: 10.2478/jdis-2025-0011 

CSTR: 32295.14.jdis-2025-0011

识别阅读全文

Research Notes

Is Google Gemini better than ChatGPT at evaluating research quality? 

Google Gemini在科研质量评估上是否优于ChatGPT?

Mike Thelwall

Information School, University of Sheffield, UK

DOI: 10.2478/jdis-2025-0014 

CSTR: 32295.14.jdis-2025-0014

JDIS为来自不同领域的科学家提供一个交流平台,通过数据驱动的洞察来提升对科学研究基础机制的定量理解。关注跨越学科领域的普遍性问题,包括资助策略、国际合作模式、科学家的职业发展与流动趋势、学科演变、学术交流、研究评估体系、技术转移、科研诚信建设以及科学界与其他社会系统之间的互动。

欢迎所有领域的研究人员提交论文,以丰富这一对话。收文类型包括原创研究、综述、观点、通讯、笔记等八种长短文。

ImpactFactor: 1.5, Q2 

CiteScore: 3.5, 71/280

中国科学院期刊分区表:2区

稿www.j-jdis.com

联络:jdis@mail.las.ac.cn

转载本文请联系原作者获取授权,同时请注明本文来自孟平科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3422014-1480035.html?mobile=1

收藏

分享到:

上一篇
下一篇
当前推荐数:2
推荐人:
推荐到博客首页
网友评论1 条评论
确定删除指定的回复吗?
确定删除本博文吗?