博文

如何评价人工智能的科研能力?《科学》精选

已有 1551 次阅读 2026-3-3 08:17 |系统分类:海外观察

如何评价人工智能的科研能力?

多年来，人工智能（AI）研究人员一直梦想开发出能够助力科学发展的工具——提出新颖问题、设计实验，甚至可能亲自执行实验。近几个月来，大型语言模型（LLMs）取得的多项发现，让部分AI开发者声称我们已向这一未来迈近了一步。但如何检验一个AI模型是否真正具备“做科学研究”的能力呢？

How will we know if AI is smart enough to do science? | Science | AAAS

为寻找答案，研究人员转向了基准测试——这是一套标准化的问题或任务集，可帮助评估AI的能力并进行模型间对比。但科学研究的复杂性，使得评估AI的科研能力格外具有挑战性。正如伊利诺伊大学厄巴纳-香槟分校的计算机科学家彭浩（Hao Peng）所言：“模型掌握了海量知识，但它们知道如何运用这些知识吗？”

过去一年中，数十项面向科学领域的新型基准测试应运而生，但科学家们尚未确定唯一的最佳评估方案。其中最受关注的一项是上月发表于《自然》（Nature）期刊的“人类终极考试”（Humanity’s Last Exam, HLE）。该测试包含2500道源自“人类知识前沿”的题目，旨在全面检验大型语言模型的能力。例如有一道题目询问：蜂鸟的籽骨支撑着多少条成对肌腱？“我们希望构建一个多样化数据集，只有在某一领域深耕多年的专家才能解答，”HLE的研发机构、非营利组织“人工智能安全中心”（Center for AI Safety）的研究工程师龙·潘（Long Phan）表示。

自2025年1月以预印本形式首次发布以来，HLE已成为大型语言模型的重要“试金石”——如今，AI公司在宣传产品能力时，HLE得分已成为常见的亮点话术。HLE推出之初，知名AI开发商OpenAI的o1模型以仅8.3%的得分位居榜首。本月早些时候，谷歌（Google）宣布其最新科学推理模型“双子座3号深度思考”（Gemini 3 Deep Think）取得了48.4%的HLE得分，创下新纪录。

但部分科学家认为，HLE的许多题目测试的是晦涩甚至琐碎的知识，而非开展有意义研究的能力。“知道世界上有多少种颜色的磷同素异形体，对科学发现有什么帮助？”AI科研公司“深度原理”（Deep Principle）的创始人段陈如（Chenru Duan）质疑道。

《自然》期刊在发表HLE相关研究时配发的社论也呼应了这一担忧：“我们认为，更多科学家应该思考：如何开发出真正能够衡量专家级思维的AI基准测试？”

图片1.png

OpenAI的研究人员表示，他们推出了一项新的基准测试，正朝着这一方向迈进。2025年12月发布的“前沿科学”（FrontierScience）基准测试，通过700道化学、生物和物理相关题目，旨在识别AI的“专家级科学推理能力”。其中部分题目类似数学和科学奥林匹克竞赛题——通常基于简短场景，答案明确，被OpenAI研究科学家迈尔斯·王（Miles Wang）称为“纯粹推理能力的良好替代指标”。例如：识别一系列化学反应产生的产物。另有一些题目则基于复杂的开放式研究问题，类似博士阶段科学家在工作中面临的挑战，例如分析修饰某一分子可能影响其性质的多种途径。

王表示，该基准测试的核心优势在于其可验证性——这是公平测试的最重要特征之一。奥林匹克竞赛类题目易于评分，而对于开放式研究问题，模型会因识别出中间推理步骤而获得相应分数。截至目前，OpenAI的自有产品GPT-5.2在FrontierScience中表现最佳，正确回答了77%的奥林匹克竞赛题，在研究类挑战中得分25%。

其他研究人员认为，这一巨大的得分差距颇具深意。他们主张，基准测试应聚焦于直接衡量AI的真实世界研究能力。这正是段陈如及其合作者在FrontierScience发布同一周推出的“科学发现评估”（Scientific Discovery Evaluation, SDE）基准测试的核心原则。与提出难度高但相互独立的问题不同，SDE向AI呈现了1125项任务，这些任务与8个正在进行的真实世界研究项目（含未发表数据）的43个研究场景相关联。例如，它要求大型语言模型找出如何将目标分子分解为更简单、可商业获取的成分。模型的评估不仅基于单个答案的正确性，还包括其整合整个项目的能力——通过多步骤提出、测试和完善假设。“我们保证，每道题的解答都与实现一小步真实的科学发现相关，”段陈如说。

SDE的得分显示，大型语言模型正确回答单个问题的能力，并不总能转化为在完整项目中的出色表现，反之亦然。“把握宏观研究方向，往往比了解特定分子的精确性质更重要，”段陈如表示。该基准测试还发现，来自OpenAI、Anthropic、xAI和深度求索（DeepSeek）等不同提供商的顶级模型，常常在相同的最难题目上受阻。这一模式表明它们可能面临着相同的能力局限，这很可能是因为它们的训练数据均源自相似的科学数据集。

然而，即便是SDE的评估方式，也仅涵盖了科学工作流程的一部分。另一项新基准测试是AI科研初创公司FutureHouse推出的、聚焦生物学领域的LABBench2，其目的是检验“AI科学家”是否具备将项目从最初想法推进至完成论文的能力。该测试于本月发布，通过近1900项任务，评估所谓的“智能体AI模型”（能够独立完成多步骤任务的系统）在执行文献检索、数据获取、基因序列构建等工作中的表现。

迄今为止，测试结果喜忧参半。许多领先的大型语言模型在检索全文专利和实验室试验论文方面表现出色，但在LABBench2中更复杂的任务上常常受挫，例如跨多个数据库交叉引用，或在密集的论文中定位并解读特定图表或数据。FutureHouse的商业分支爱迪生科学公司（Edison Scientific）的乔恩·劳伦特（Jon Laurent）表示，这表明，要实现真正的AI科学家，部分还需改进模型检索和处理信息的方式。

研究人员强调，基准测试的意义不仅在于追踪当前的领先者。更严格的基准测试还能通过为大型语言模型和其他AI工具设定新目标来推动创新。“基准测试的目的之一是超越时代，衡量潜在能力，并推动这些能力的发展，”劳伦特说。

“大多数突破性进展出现之前，都曾有一项基准测试成为该领域的‘北极星’，”王对此表示赞同。他补充道，最著名的案例之一是“ImageNet大规模视觉识别挑战赛”，该赛事要求计算机识别图像。2012年挑战赛的获胜者AlexNet，催生了卷积神经网络的发展——这正是现代AI的核心基础。

在许多领域，AI“擅长科学研究”的衡量标准可能并非唯一。“这正是我们看到当前基准测试呈现出巨大异质性的原因，”佐治亚理工学院研究认知神经科学与AI的安娜·伊万诺娃（Anna Ivanova）说。“一个系统处理数据绘图的能力，与其在分析化学方面的事实性知识——尽管科学家可能两者都需要——是截然不同的。”

鉴于科学研究所需技能的多样性，AI专家表示，研究界最好采用一套“测试组合”，每项测试针对科学工作流程的不同环节，旨在推动该环节的能力提升。“我们正迈向一个需要更多样化评估方式的世界，”王说。

无论采用何种方式，“可衡量的指标才有可能推动进步”。彭浩表示：“要取得进展，首先必须能够衡量进展。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://wap.sciencenet.cn/blog-41174-1523808.html

上一篇：重新评估瘦素的潜在价值：治疗1型糖尿病
下一篇：4万年前人类就开始使用文字

收藏 IP: 117.143.183.*| 热度|

当前推荐数：3 推荐人：许培扬 郑永军 史仍飞

该博文允许注册用户评论请点击登录评论 (1 个评论)

数据加载中...

返回顶部

孙学军

扫一扫，分享此博文

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

如何评价人工智能的科研能力?《科学》精选

当前推荐数：3 推荐人：许培扬 郑永军 史仍飞

该博文允许注册用户评论请点击登录评论 (1 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

如何评价人工智能的科研能力?《科学》 精选

当前推荐数：3 推荐人： 许培扬 郑永军 史仍飞

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

如何评价人工智能的科研能力?《科学》精选

当前推荐数：3 推荐人：许培扬郑永军史仍飞

该博文允许注册用户评论请点击登录评论 (1 个评论)