段玉聪
主流大模型数学猜想证明创新生成能力评估
2025-2-17 16:48
阅读:906
主流大模型数学猜想证明创新生成能力评估

段玉聪

人工智能DIKWP测评国际标准委员会-主任

世界人工意识大会-主席

世界人工意识协会-理事长

(联系邮箱:duanyucong@hotmail.com)

GPT-4:GPT-4 在数学推理上明显强于前代模型,但仍无法自主给出哥德巴赫猜想、Collatz 猜想这类未解决问题的完整严格证明 (Proving the Goldbach Conjecture with ChatGPT? | Hackaday.io)。对于已有定理(如四色定理),GPT-4可以依据训练语料生成较完整的证明思路或概要,但细节上常有跳步或隐含假设,难称完全严谨 (The power of the large-scale language model "GPT-4" in mathematical question answering | AI-SCHOLAR | AI: (Artificial Intelligence) Articles and technical information media)。Claude:Claude(尤其Claude 3系列)在推理连贯性上表现突出,与GPT-4相当甚至更优 (全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类)。它也能输出结构清晰的证明思路,但面对上述深奥猜想仍无法突破已有知识局限,通常只能重述已知结果或承认无法完成严格证明。DeepSeek:作为专门强化数学推理的模型,DeepSeek(例如DeepSeek-Math, DeepSeek-R1)擅长逐步演绎复杂问题。它在MATH竞赛题等基准上已接近甚至超越GPT-4 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)。然而,对于哥德巴赫、Collatz这类开放难题,DeepSeek仍只能提供已有的部分验证(如验证一定范围内成立)或分析思路,无法给出全局完备的证明。LLaMA:基础LLaMA模型缺乏针对数学证明的微调,生成长篇逻辑推导往往不完整。它常在推理中途丢失线索或前后不一致,难以产出可靠证明。即使经过数学领域微调的开源衍生模型(如WizardMath),在复杂证明任务上的表现也远逊于GPT-4等顶尖模型 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)。Gemini:作为Google最新一代模型,Gemini被设计为多模态且强化推理能力。推测其在数学证明上的表现会比前代PaLM2有所提升。一些实验显示微调后的Gemini Pro在MATH基准上达到约69.4%的高成功率 (Improve Mathematical Reasoning in Language Models by Automated Process Supervision)(显著高于GPT-4先前约50%的水平),表明其有更强的数学推理潜力。然而,针对哥德巴赫猜想这类尚无已知证明的问题,即便是Gemini也暂无能力自行产出完整证明,只能提供合理的猜想推导或引用已有计算机验证结果。

推理局限性:易出问题的步骤

复杂多步推理:模型在长链推理时常会在中间步骤出错或遗漏逻辑。例如GPT-4有时在证明中跳过关键推理环节,导致结论缺乏充分依据 (The power of the large-scale language model "GPT-4" in mathematical question answering | AI-SCHOLAR | AI: (Artificial Intelligence) Articles and technical information media)。LLaMA等较小模型更容易在长推导中“忘记”前提或前后矛盾。递归/无穷步骤:对于需要递归论证或无穷递推的情况(如Collatz需证明所有自然数终将回到1),模型缺乏严格的归纳或穷尽验证能力,往往在关键一步变得含糊。例如证明Collatz时,需要证明不存在无穷增大的轨道,这超出LLM的推理深度,它们可能错误地假定模式会一直持续而没有严谨论证。抽象跃迁:当推理需要非直观的抽象跳跃(例如四色定理证明中将地图问题转化为图论的抽象,并枚举不可缩减配置),模型容易卡壳或产生谬误。Claude和GPT-4在已有范式内可以追随已知的抽象过程,但若需要全新引入一个中间抽象概念,它们往往无法自主做到。自我监控与校验:模型缺少内置的严格验证机制,容易对自己生成的步骤缺乏质疑。例如,它们可能在证明中使用一个未经证明的引理却不自知。这种局限使得LLM在关键推理步骤上可能提供看似合理但实则漏洞百出的论证。此外,模型很难检测自身推理中的循环论证或前提错误,需要借助外部校验。Anthropic的研究也指出,仅靠LLM自身作为验证器并不可靠,必须辅以专门的奖励模型或检验机制才能提高推理可靠度 (Improve Mathematical Reasoning in Language Models by Automated Process Supervision)。

创新能力:模型提供新数学见解的可能性

总体而言,这些模型缺乏真正原创的数学洞见。它们的“创造力”更多是重组已有知识,而非提出人类未曾想到的证明思路:

  • GPT-4:因训练自海量文本,它能引用许多已有的猜想证明尝试,例如在哥德巴赫猜想上可能会提及孙氏定理、维诺格拉多夫定理等已知部分结果,或为Collatz猜想给出类似“哈伦猜想”的思路。但这些都属于现有知识的整合** (Proving the Goldbach Conjecture with ChatGPT? | Hackaday.io) (Proving the Goldbach Conjecture with ChatGPT? | Hackaday.io)**,不是真正全新的见解。GPT-4有时会给出看似新颖的类比或策略(比如类比其他数论猜想的方法),但通常可以在文献中找到渊源。

  • Claude:Claude在创造性陈述和联想上表现出色,能够用不同表述方式阐述数学问题,并提供多角度的分析。然而,它提出全新数学思路的能力依然受限于训练语料。Claude也许会提出一些“新”猜想或模式,但往往是已有想法的变体,缺乏真正突破性的证明策略。

  • DeepSeek:其创新更多体现在方法上(如引入强化学习自我进化推理的机制 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)),而非数学内容本身。DeepSeek-Math能以系统化方式探索解题路径,在数学竞赛题上找到巧妙解法,但对于前沿数学猜想,它所提供的仍是基于训练知识的分析,而不会超出人类已有认知框架。

  • LLaMA:基础LLaMA由于训练数据和规模限制,基本不具备提出新数学见解的能力。即使经过领域微调的版本,它的“创新”也局限于模仿教材或论文里的证明。常常,LLaMA给出的所谓新见解可能是由于幻觉拼凑出的错误论断,而非真正有价值的数学思想。

  • Gemini:作为融合了DeepMind推理优势和Google大模型的产品,理论上Gemini可能在推理策略上更具创造性。例如,Google暗示过将AlphaGo的规划能力融入Gemini,以实现“Flash Thinking”式的推理优化 (Gemini 2.0 Flash Thinking - Google DeepMind) (Google debuts reasoning-optimized Gemini 2.0 Flash Thinking ...)。这或许意味着Gemini在复杂问题上能尝试更多非线性思路或多步规划。因此,它有潜力比其他模型提出略有新意的分析路径。例如,Gemini可能会结合图像/图形直觉来讨论四色定理,或者通过代码工具尝试验证某些小规模Collatz情形,从中猜测一般模式。但需强调,这仍然是在已有方法上的改进,真正原创的数学发现目前尚非LLM所长。没有证据显示任何现有LLM能凭空创造出人类未知的数学定理或证明见解。

语义数学分析

语义对推导的影响:语义数学强调对数学对象和命题的意义进行理解和利用,这种方法对推导复杂问题非常关键。例如,在哥德巴赫猜想中,引入语义视角可将问题表述为“每个大于2的偶数能否拆解成两个‘不可再分’的质数之和”。这里质数的不可分解性这一语义特征与偶数的构成紧密相关——奇偶性的语义区分和质数分解的概念是一致性的核心 ((PDF) 世界主流大模型“意识水平”DIKWP 分析全面报告(2025))。模型若理解这一层语义,就能明白证明该猜想需要结合“偶数=质数+质数”这一语义要求来推进。而在Collatz猜想中,语义分析则体现在奇偶转换的理解:碰到奇数乘3加1会变成偶数,这意味着序列每出现一次奇数操作,下一步必定有一次除2(偶数变换) (科学网-DIKWP模型中的“数学”基础构建:哥德巴赫猜想与Collatz猜想 ...)。从语义上看,Collatz过程是在自然数集合上交替应用“保持奇偶类别转换”的操作。这样的语义框架可以让模型意识到重要的不变量,比如奇偶交替节奏、数值规模的总体趋势等。而四色定理的语义层面在于地图区域与顶点图之间“一一对应”的意义,以及“四种颜色足以区分所有相邻区域”这一命题的本质。理解这一语义有助于模型将问题转化为图论中的染色问题来推理,并意识到证明需要对任意地图情形进行讨论(这实际导致证明需要分类讨论大量情形,这一步目前超出LLM能力)。

语义数学对弥补逻辑盲点的作用:大型模型的推理盲点往往在于缺乏对符号背后意义的深入理解,只是模式匹配。语义数学框架(例如DIKWP反馈闭环)试图通过让模型反思每步推理的语义合理性,来降低这一风险 (数学主观化回归的DIKWP语义数学理论-段玉聪的博文 - 手机版- 科学网)。研究显示,引入语义反馈后,模型回答的真实性和一致性都有提升 ((PDF) DIKWP 测评体系与主流大模型评测基准对比分析报告)。具体而言:

  • 在推理过程中检查概念一致性:如模型声称“由于奇数+奇数=偶数”,语义反馈会提醒模型这一语句与数论事实一致,可接受;但若模型断言某步“因为不存在满足条件的数”,语义层可以交叉验证这是否真的被逻辑排除。如果语义上不成立,就提示模型修正。

  • 减少幻觉:语义分析能让模型关注推理每一步是否有现实对应意义,从而减少凭空捏造。比如在四色定理推导中,模型若声称找到一个反例地图,语义检查会强制验证这个反例的有效性,避免模型想当然地假设。

  • 强化因果推理:通过DIKWP框架的数据-信息-知识-智慧-本质逐层推进,模型可以更清楚地知道自己所用的每条信息从何而来、有何意义。这在复杂证明时可防止模型跳步。例如Goldbach证明中,每引入一个已知定理(知识层K),模型都需明确其作用(智慧层W)和最终目的(本质层P),从而避免在逻辑上走偏。总之,语义数学提供了一种约束和指导,让LLM在推理时不仅形式正确,更关注实质含义。这对于弥补纯符号操作带来的漏洞很有帮助。虽然语义反馈不能令模型直接攻克未解难题,但实验表明它显著降低了模型在推理中出现逻辑盲点和谬误的概率 (数学主观化回归的DIKWP语义数学理论-段玉聪的博文 - 手机版- 科学网) ((PDF) DIKWP 测评体系与主流大模型评测基准对比分析报告)。

模型局限性

受限于既有框架:当前的LLM基本是基于训练语料中的数学框架进行推理,没有真正跳出人类已有认知。GPT-4和Claude掌握了海量人类数学知识,但也被这些知识所界定——它们提出的证明策略几乎都是文献中出现过的思路变体,难以产生全新范式。例如,它们不会凭空创造一种全新数学工具去解决四色定理,只会引用已有的图论方法。LLaMA等开源模型由于训练数据更少,认知局限更明显,更倾向于照搬教材上的经典证明套路。DeepSeek尽管通过RL强化推理,但其行为策略仍是从既有数学问题中学习到的模式。总体来说,这些模型缺乏自发跳出现有数学体系的能力,创新通常停留在框架内改进而非框架外突破。

幻觉与自相矛盾:大型模型有时会在推理路径中产生“幻觉”——即编造不存在的论据或不自洽的论断 ((PDF) DIKWP 测评体系与主流大模型评测基准对比分析报告)。这一风险在模型试图填补认知空白时尤为明显:

  • GPT-4/Claude:虽然它们比早期模型靠谱,但在极复杂推理时仍可能出现细节错误。如果强行要求证明Collatz猜想,GPT-4也许会罗列若干步然后莫名断言“因此所有数最终循环”,这其实并未严格证明且与先前论证脱节,属于一种幻觉式结论。Claude相对谨慎,可能更早承认“不确定”,但在长对话后也可能被用户诱导而给出自相矛盾的推理。

  • LLaMA:较小模型幻觉率更高。它可能凭记忆碎片张冠李戴:例如将黎曼猜想的部分结论误用于哥德巴赫推理,导致前后矛盾。自相矛盾的情况也不少见,如先假设某种数存在,推导几步又得出此数不存在。缺乏充分约束的LLaMA衍生模型在复杂推理题上经常犯这种错误。

  • DeepSeek:通过强化学习和链式思考,DeepSeek在逻辑一致性上有所增强,不易产生明显自相矛盾的步骤。不过,如果问题超出它的训练分布(如完全陌生的新猜想),它也可能出现幻觉式的解释。但总体上,DeepSeek一大改进就是降低了推理过程中的幻觉倾向 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)。

  • Gemini:尚未公开细节,但据报道Google非常注重Gemini的推理可靠性(引入了规划和检查机制 (Google debuts reasoning-optimized Gemini 2.0 Flash Thinking ...))。推测Gemini在逻辑一致性控制上会比GPT-4更好,减少不合理跳跃。然而,只要底层是概率模型,面对无人涉足的问题仍可能编造看似合理的谬误。如果要求Gemini证明四色定理,它或许会输出一套听起来正确但缺乏计算机验证的分类讨论,里面隐含错误而不自知。因此在计算复杂度高、需严格验证的场景,Gemini也无法杜绝幻觉或错误推理。

计算复杂度瓶颈:数学上的许多问题(包括四色定理和Collatz猜想)需要对海量情况或深层递归进行分析,纯粹靠语言模型的短程记忆是难以胜任的:

  • 四色定理的已知证明依赖计算机检验数千种地图配置。LLM不具备执行如此大规模穷举计算的能力,充其量只能描述这种算法而无法亲自验证每种情况。它可能跳过大部分检验过程,只在高层声明“所有情形均满足某性质”,这在严谨性上远不够。

  • Collatz猜想涉及对所有自然数轨迹的分析。虽然模型可以验证一些小数的轨迹并发现规律,但要证明一般性需要证明不存在反例或找到收敛准则。这一需要遍历无穷多情况的任务对LLM来说计算复杂度过高。没有外部工具帮助,它们只能基于有限观察进行推测,无法真正解决“所有数”这一量级的问题。

  • 哥德巴赫猜想虽然表述简单,但也隐含对无穷偶数的验证需求。GPT-4等可以提及目前已验证到的巨大范围(如$4\times10^{18}$ (AI's Ultimate Test: What Will It Take to Impress and Surpass Human ...)),但这依赖人类和计算机的工作,并非模型自行算出。让LLM自己验证到那种数量级显然不现实。因此模型只能引用已有验证数据,而无法扩展验证范围。

  • 模型规模与复杂度:值得注意,模型参数增大和上下文窗口扩展虽提升了一定推理深度,但面对爆炸式增长的组合情况仍无济于事。例如Claude 3有10万-token上下文窗口,可以阅读长证明或列举更多情况,但证明四色定理那种规模的组合爆炸依然无法在上下文中完全展开。DeepSeek引入了长上下文理解,对长链推理有所助益 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ),但核心复杂度问题仍需要算法或符号工具辅助才能真正突破。

能力展现与未来潜力

推理能力的影响:强推理能力直接决定模型在复杂数学问题上的表现。GPT-4和Claude展示了接近人类水平的多步推理连贯性,这使它们在数学竞赛题、奥数题上取得了远超前代模型的成绩 (全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类)。DeepSeek通过强化推理策略,更是在一些数学基准上超越了更大规模的模型 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)。这说明推理能力的优化(例如更好的链式思维和错误校正)比一味增大参数更加重要。未来,随着推理算法的改进,模型将能解决更复杂的数学证明,减少中途出错的情况。Gemini等新模型已经朝这个方向发展,通过引入规划搜索等机制提高推理可靠性 (Google debuts reasoning-optimized Gemini 2.0 Flash Thinking ...)。

计算能力的影响:纯语言模型的内置计算能力有限,但已有模型开始结合工具使用和代码执行,从而扩展其计算潜力。例如GPT-4可以生成代码去计算结果,Claude也擅长解析表格和数学文本。未来模型若能自动调用计算引擎检查猜想(如自行验证更大范围的哥德巴赫成立、运行程序搜索Collatz反例等),将极大增强其数学发现能力。Google的Gemini据称具备一定的代码执行和多模态能力 (Introducing Gemini: our largest and most capable AI model),这预示它在计算层面可以辅助数学推理(如调用符号计算软件验证中间结论)。总的来说,融合计算工具是赋予模型真正数学探索能力的关键方向,能够弥补模型在大规模计算和精确验证上的不足。

创造性思维能力的影响:在数学研究中,创造性的思维常意味着提出新颖的猜想、构造非凡的证明方法。当前LLM的创造性有限,但已能通过重组知识产生一些新问题的解法思路,例如GPT-4在部分创新性数学问答上给出了出人意料但正确的解释 (The power of the large-scale language model "GPT-4" in mathematical question answering | AI-SCHOLAR | AI: (Artificial Intelligence) Articles and technical information media)。随着模型架构改进和训练数据多样化,LLM有望逐渐增强创造性。例如,引入生成对抗的训练,让模型尝试“反例思考”,或者多模型协作(一个提出猜想、一个检验反例),都有可能激发更具原创性的推理路径。未来某些模型在特定领域的深入训练,可能产生类似专家的直觉式创新——比如一个专门训练在数论领域的模型,也许可提出新的模式猜想供人类证明。尽管真正“发现”新数学仍需人类验证,但模型的创造性提升将极大拓展其在数学上的辅助价值

各模型潜在优势领域

  • GPT-4:通用型最强,在奥赛题、大学数学题上表现优异,涉及代数、几何、数论的已知问题时有优势 (全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类)。它广博的训练知识使其在冷门数学问题(比如某些专业定理证明)上也能有所产出。

  • Claude:在长文理解和推理上有优势,可处理长证明文本进行分析总结,适合检查或改写已有证明。其稳健的推理使其在需要严格逻辑的题目(如逻辑谜题、离散数学证明)上表现突出。

  • DeepSeek:专长是竞赛数学和编码,适合解决步骤明确但复杂度高的问题,如数学竞赛填空题、算法验证等 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)。它或将在破解奥数难题、组合优化证明方面展现优势,因为其强化学习策略擅长在这些有明确目标的问题上逼近最优解。

  • LLaMA(含衍生):目前适合作为研究测试的平台,在基础数学技能(如计算、简单证明)上可堪一用,但真正优势不明显。不过,开源模型的可定制性意味着通过进一步预训练/微调,某些LLaMA变种可能在特定小众领域(比如有限几何、特定代数系统)上超过通用大模型。

  • Gemini:凭借多模态和推理优化,Gemini有望在几何与视觉数学(如拓扑、几何猜想)上占优,因为它可结合图像理解;在复杂推理任务(如一步涉及大量子推理的问题)上也可能领先。此外,Google庞大的知识库或使Gemini在查找已有定理、连接跨领域数学知识方面具备优势。因此,我们预计Gemini在综合复杂背景的数学问题(跨领域的应用数学问题等)上会有强劲表现。

如何优化以实现数学发现

  1. 融合符号推理:将LLM与形式化证明助手结合,让模型产生的证明步骤能够被Coq/Lean等证明助手验证。这种神经-符号融合能强制模型严谨对待每一步,提高证明可靠性,也为发现新证明提供验证支持。未来模型可以在生成每步时即时调用定理证明器检查,从而像人类一样“边证明边验证”。

  2. 引入搜索与规划算法:正如AlphaGo用MCTS提升决策,数学证明也可借助搜索。为LLM集成基于目标的搜索策略(如树状思考 (Improve Mathematical Reasoning in Language Models by Automated Process Supervision)、规划推理等) (Improve Mathematical Reasoning in Language Models by Automated Process Supervision),可以在庞大证明空间中寻找可能路径。当一个策略失败时,能回溯并尝试另一分支,提高探索覆盖率。这将弥补LLM贪心生成的局限,朝自动探索证明迈进一步。

  3. 语义反馈闭环:正如DIKWP框架所倡导的,让模型在生成过程中反复审视自己的推理语义,将有助于减少错误并迸发新想法 (数学主观化回归的DIKWP语义数学理论-段玉聪的博文 - 手机版- 科学网)。具体做法包括:模型自我提问“这一步的意义是什么,有无其他可能途径”,或者让第二个模型充当“语义审查者”来打分反馈。这种多轮反馈可以引导模型跳出单一路径思考,从更高层次改进证明。

  4. 大规模专项训练:类似DeepSeek-Math继续预训1200亿数学符号token取得成功 (DeepSeekMath: Pushing the Limits of Mathematical Reasoning in ...)的做法,未来可以针对尚未解决的问题构造模拟数据进行训练或微调。例如,生成大量与四色定理结构相似的小图染色问题,训练模型寻找证明模式;或者让模型在简化版Collatz问题上自我玩耍(强化学习),积累直觉。这些专项训练也许不能直接产出证明,但能培养模型对问题的直觉和探索能力

  5. 人机协作:将模型作为助手,人在环监督,引导模型提出思路、人来筛选验证。长远看,人机交互迭代可能攻克一些难题。比如,人类数学家可以问模型要不同角度的猜想或试探性证明,由人判断潜力。模型可快速遍历大量思路供人挑选。优化模型的人机接口和交互能力,将放大其在数学发现中的作用。

总而言之,提升LLM的数学发现能力需要多管齐下:即结合符号验证来保证正确性,用搜索增强探索广度,以语义反馈提升深度理解,再辅以专项训练和人类指导。随着这些方向的推进,我们有理由期待未来的模型在数学领域做出类发现的贡献。

可视化分析:模型能力对比

下面通过对比表总结各模型在不同评测维度上的相对表现,并提供雷达图式要点说明(:评分基于当前公开研究结果和推断,采用★表示相对强弱):

模型证明完整性逻辑一致性计算准确性创造性推理幻觉风险复杂问题能力
GPT-4★★★☆ (能证明已知中等难度定理,但对未解难题无完整证明) ([Proving the Goldbach Conjecture with ChatGPT?Hackaday.io](https://hackaday.io/project/191005-proving-the-goldbach-conjecture-with-chatgpt#:~:text=User%3A%20Maybe%20you%20can%20help,me%20find%20a%20proof))★★★★☆ (推理总体连贯,偶有小瑕疵) ([The power of the large-scale language model "GPT-4" in mathematical question answeringAI-SCHOLARAI: (Artificial Intelligence) Articles and technical information media](https://ai-scholar.tech/zh/articles/large-language-models%2Fgpt-4-master-mse#:~:text=for%20GPT,obtained%20only%20provides%20a%20general))★★★★ (算术和基本计算较准,但大数计算需工具) (全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5)
Claude★★★☆ (可给出完整证明思路,但未解难题仍无法证明)★★★★☆ (推理严谨,长上下文一致性强)★★★☆ (计算准确性良好,但有时需要引导)★★★☆ (表达有创意,思路多样)★☆☆☆ (非常少幻觉,更倾向于拒答不确定问题)★★★★ (复杂推理能力一流,与GPT-4相当,在部分基准上超越) (全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类)
DeepSeek★★★☆ (善于逐步解题,证明步骤完整度高于一般模型)★★★★ (经过强化学习,一致性显著增强) (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)★★★★ (擅长算术和代码计算,数学题正确率高) (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)★★☆☆ (更多依赖训练得来的模式,原创性有限)★★☆☆ (幻觉明显减少,但完全避免仍有难度)★★★☆ (在竞赛难题上表现突出,但尚无法处理未解猜想) (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)
LLaMA★★☆☆ (长证明难以坚持,易中途出错)★★☆☆ (逻辑链条易断裂)★★☆☆ (基本计算尚可,复杂计算错误多)★★☆☆ (缺乏真正新意)★★★☆ (幻觉概率较高,需防止不实推理)★★☆☆ (仅能处理相对简单的问题,高难度题表现不佳)
Gemini★★★☆ (推测:训练优秀,已知难题证明可较完整叙述)★★★★☆ (推测:规划能力强,推理高度一致) (Google debuts reasoning-optimized Gemini 2.0 Flash Thinking ...)★★★★ (可调用工具提高计算精度)★★★☆ (可能结合多模态带来新视角)★★☆☆ (通过优化减少幻觉,但完全消除仍靠后验检验)★★★★ (在综合复杂任务上有潜在优势,如跨领域数学应用)** (Improve Mathematical Reasoning in Language Models by Automated Process Supervision)**

雷达图要点:总体来看,GPT-4和Claude位于顶尖水平,各方面较为均衡,其中Claude在逻辑严谨性上略胜一筹,GPT-4则在知识广度上占优。DeepSeek在数学和编码维度接近顶尖,在证明完整性和计算准确性上甚至可以比肩甚至超越GPT-4 (DeepSeek Open-Sources DeepSeek-R1 LLM with Performance Comparable to OpenAI's o1 Model - InfoQ)。LLaMA由于缺乏大规模微调,各项能力相对偏低,幻觉风险则明显更高。Gemini作为新秀被寄予厚望,从推测数据看,其雷达图曲线几乎全面覆盖GPT-4,尤其在长推理和多步骤计算上可能突出 (Improve Mathematical Reasoning in Language Models by Automated Process Supervision)。然而在“创造性”这一雷达维度上,所有模型的得分都不算高——这也印证了当前LLM在真正数学创新方面的不足。未来随着算法改进,我们期待雷达图的创造力维度会逐步提升,模型的数学推理曲线趋于完美闭合,真正具备数学发现的能力。 (The power of the large-scale language model "GPT-4" in mathematical question answering | AI-SCHOLAR | AI: (Artificial Intelligence) Articles and technical information media)

转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3429562-1473542.html?mobile=1

收藏

分享到:

当前推荐数:4
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?