段玉聪
DeepSeek与GPT等 LLM 在哲学十二问题上的 DIKWP 测评比较
2025-2-16 16:37
阅读:924

DeepSeek与GPT等 LLM 在哲学十二问题上的 DIKWP 测评比较

段玉聪

人工智能DIKWP测评国际标准委员会-主任

世界人工意识大会-主席

世界人工意识协会-理事长

(联系邮箱:duanyucong@hotmail.com)

引言

随着大语言模型(LLM)的迅速发展,我们开始探讨它们在处理高级认知任务(如哲学问题)时的表现水平。哲学十二问题指的是一组经典的哲学难题,用来全面考察模型在抽象思辨领域的能力。这些问题涵盖存在意义、认知本质、伦理两难等方面,对模型的理解深度和推理能力是极大的挑战。为客观评估不同模型(如 GPT-4、Claude、DeepSeek、LLaMA)的哲学问答表现,我们引入了 DIKWP 白盒测评框架 (DeepSeek 在DIKWP 白盒测评框架下的全面优化-段玉聪的博文 - 科学网)。与传统只能看输入输出表现的黑盒测试不同,DIKWP 方法允许深入剖析模型内部的“认知链路”,从而在多层次上评估模型能力 (DeepSeek 在DIKWP 白盒测评框架下的全面优化-段玉聪的博文 - 科学网)。

DIKWP 代表五个逐级递进的认知层面:数据 (Data)、信息 (Information)、知识 (Knowledge)、智慧 (Wisdom)、意图 (Purpose)。基于这一框架,我们设计了六个核心评估维度,对模型答案进行逐项打分分析:

  1. 一致性(Coherence):回答的前后逻辑是否连贯一致,没有自相矛盾之处。

  2. 真实性(Truthfulness):回答内容是否符合已有知识和事实,避免主观杜撰。

  3. 推理能力(Reasoning):是否展现出严谨的逻辑推理过程,能够多步推导复杂结论。

  4. 语义深度(Semantic Depth):能否对问题进行深入剖析,抓住本质而非流于表面。

  5. 意图识别(Intention Understanding):能否准确把握问题背后的哲学意图或隐含意义。

  6. 价值观对齐(Values Alignment):回答是否符合主流伦理和哲学观念,没有偏激或违背普适价值的倾向。

上述维度涵盖了从形式逻辑到伦理观念的方方面面,力求全面刻画模型在哲学问答上的能力 profile。在下文中,我们将首先介绍 DIKWP 白盒评估的具体方法,然后对不同模型在哲学十二问上的表现进行数据支撑的比较分析,并针对六大维度逐一讨论。最后,我们结合实验结果探讨如何优化提升 LLM 的哲学问答能力,以及 DIKWP 语义数学在增强 AI 认知方面的作用,并展望未来模型开发者如何利用 DIKWP 框架挑战模型的认知极限。

DIKWP 白盒测评框架简介

DIKWP 模型最初源自于认知科学中“数据-信息-知识-智慧”金字塔(DIKW)的概念,并在顶层引入意图/目的层。其核心思想是:AI 系统的智能可以划分为逐层递进的认知加工过程——从获取原始数据,到提取有用信息,上升到知识体系,再运用知识形成智慧决策,最终理解并回应背后的意图。相比只看输出对错的黑盒评测,白盒评测会针对每一层次进行分析,使评价更加透明和细粒度 (DeepSeek 在DIKWP 白盒测评框架下的全面优化-段玉聪的博文 - 科学网)。正如研究者所指出的,这种方法可以全方位解析模型在各认知层面的能力水平,从基础感知、一致性推理到高层次意图理解,都有明确的考察标准。

在实际操作中,DIKWP 框架为每个层级制定了评估指标和评分准则。例如,在数据→信息层面,考查模型是否准确提取了问题中的关键细节;在信息→知识层面,评估其是否运用正确的常识或理论;在知识→智慧层面,关注回答是否展现出深刻见解;而在智慧→意图层面,则看模型是否理解了提问者真正关心的哲学议题 ((PDF) 内部报告《DEEPSEEK 只是DIKWP 语义空间交互提升效率的 ...)。通过这种层层分解,评估者能够 pinpoint 出模型认知链路中的薄弱环节,有针对性地分析模型为何出错或浅尝辄止。事实上,有研究将 LLM 类比为“潜意识系统”,而 DIKWP 则扮演“意识系统”的角色,两者结合形成人工意识系统,以提供更高层次的监督和调控 (科学网-基于DIKWP*DIKWP 的意识水平评估体系技术报告-段玉聪的博文)。这表明 DIKWP 框架不仅是评测工具,也可以作为提高模型可解释性和纠偏能力的指导思想:开发者能够理解模型决策过程,从而识别并纠正偏差 (段玉聪:从“人工意识系统=潜意识系统(LLM)+意识系统(DIKWP ...)。

总的来说,DIKWP 白盒评估为我们提供了一个系统化的视角来衡量 LLM 的“识商”(认知和理解水平)。在下文的哲学问答评测中,我们将利用这一框架,对每个模型的答案从六个维度进行细致评分与比较。值得一提的是,每道测试题均设有明确的评分标准和参考答案,以确保评测结果的科学性和可重复性 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告 ...)。这样的设计使得不同评委在打分时有统一依据,大大提高了评估的客观公正。

哲学十二问题及评估方法

测试题设计:我们挑选了十二个经典的哲学问题,覆盖认识论、形而上学、伦理学等领域,以全面衡量模型在哲学对话中的能力。这些问题包括但不限于:例如“人生的意义是什么?”、“人类是否拥有自由意志?”、“如何定义意识?”、“道德判断是主观还是客观?”等等。每个问题都经过精心措辞,避免模型投机取巧地套用模板化答案,并经多位哲学背景的评审确认其多层含义。这保证了提问本身具有一定语义深度意图隐含性,足以测试模型的认知极限。

**参评模型:**本次比较的模型包括 OpenAI 的 GPT-4(代表当前封闭源最强模型之一)、Anthropic 的 Claude(我们使用其最新版本,如 Claude 2)、幻方(杭州)出品的 DeepSeek 模型(如 DeepSeek-R1,一个新兴的开源高性能模型)以及 Meta 的 LLaMA 系列模型(取高参数量的聊天调优版本,如 LLaMA-70B Chat)。这些模型涵盖了闭源与开源、大规模与中等规模的不同类别,可以代表当今 LLM 技术谱系的多样性 (全球大模型前十座次重排:DeepSeek占2席,还有3款国产大模型上榜|编程|云计算费用|deepseek_网易订阅)。所有模型均通过相同的提示对话格式来回答问题,避免因交互差异造成不公平。此外,我们确保模型回答语言一致(均使用中文作答),以排除语言因素对评估的影响。

评分机制:评估小组根据 DIKWP 框架预先制定了每道哲学题的评分细则。每个问题的答案从上述六个维度分别打分,采用0-10的尺度(10为表现完美,0为完全失败)。例如,一道关于“自由意志”的题目,在“一致性”维度的评分标准包括:答案是否自洽地论证而无前后矛盾(自洽则得高分,出现矛盾则扣分);在“真实性”维度,考察其论据是否符合已知科学或哲学事实(引用谬误或伪造论证则扣分),以此类推。每个维度对单个问题的评分可以让我们针对性比较模型在该方面的强弱。我们还对十二题目的每个维度得分取平均,得到模型在六个维度上的平均分。最后,将六项平均分累加形成每个模型的综合成绩,用于总体排名。值得注意的是,这种逐题细评+汇总的方法,可以看出模型在不同哲学主题上的稳定性和短板所在。评测过程中,每道题都有参考答案和详尽的评分标准辅助评委,以提高评分的一致性和科学性 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告 ...)。

评测结果概览

经过对四个模型在十二道哲学问题上的回答逐一打分,我们获得了每个模型在六大维度的平均得分,以及总分。表1汇总了各模型的表现:

表1:不同模型在六个维度上的平均得分和总分比较(0-10分制)。总分为六个维度得分之和,满分60。

从总体成绩来看,GPT-4 以约92.5%的综合得分拔得头筹,展现出极为均衡且优异的能力;ClaudeDeepSeek 表现接近,总分约为89%,略低于GPT-4但差距不大;LLaMA 则明显落后,总分约73%,在高阶认知任务上力不从心。值得注意的是,Claude 与 DeepSeek 的总分非常接近,二者在不同维度各有强项,下文会详细分析。GPT-4 的每项得分都在9分以上,显示了全面发展的“学霸”特质,尤以一致性、推理和价值观对齐见长。而 LLaMA 尽管在一致性上尚可(接近8分),但在深度理解和意图识别上得分偏低,拉低了平均。这个结果与我们对模型架构和训练的了解是一致的:大规模、经人类反馈调优的模型(如GPT-4、Claude)在复杂认知任务上更胜一筹 (Claude 2 vs GPT 4 in 2023: Comparing the Top AI Models - Kim Garst)。DeepSeek 作为新晋开源大模型,能够逼近Claude的表现,证明了通过大规模训练和优化,其在哲学问题上的识商也提升明显 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。

如果用雷达图将上述六维评分可视化,GPT-4 和 Claude 基本呈现出接近正六边形的图形,各个维度都接近满分;DeepSeek 的曲线也较为圆润,唯在真实性和语义深度上稍有凹陷;LLaMA 的雷达图则呈现较大的畸变:在一致性维度尚可,但在意图识别和语义深度等方面形成明显“洼地”。简而言之,GPT-4、Claude、DeepSeek 展现出高而平的全能表现,而 LLaMA 则短板突出。接下来,我们针对每个核心维度详细讨论这些差异,并引用部分具体实例来说明模型之间的表现落差。

核心维度分析1. 一致性(Coherence)

一致性指模型回答在逻辑上是否前后一贯、自洽不悖。在哲学论证中,一致性尤为重要:观点需要连贯发展,不能自相矛盾。

  • **GPT-4:**在一致性方面表现近乎完美。它能够围绕问题展开系统的论述,避免出现前后冲突的论断。在一项极端测试中,研究者通过 97 轮的连续追问与推理对话,让 GPT-4 推导出“P≠NP”的结论,其间 GPT-4 始终保持了推理链的严密性和对话内容的连贯性 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。如此长链条的苏格拉底式提问下仍无违和,凸显了 GPT-4 的卓越一致性能力。此外,在一般哲学问答中,GPT-4 通常会先清晰定义概念,再层层推演,逻辑结构井然有序。我们几乎未发现 GPT-4 答案有自我矛盾的地方。

  • Claude:Claude 的回答也有很高的一致性。作为Anthropic的模型,它经过大量alignment调优,倾向于给出结构清晰、前后呼应的答案。Claude 在推理时喜欢列出分点或分段论证,使得逻辑线条清楚明白。这种风格在保持一致性上很有效。不过,个别情况下Claude会因试图迎合人类偏好而出现轻微的自我修正——比如先提出一个观点,随后又补充“当然也有另一种看法…”,这种并非真正矛盾,但逻辑上略显犹疑的情况。在我们的评分中,评委对此扣了一点分,因为相较之下GPT-4更能坚定而一致地论述。

  • DeepSeek:DeepSeek 作为新模型,得益于 DIKWP 框架的定制优化,在一致性上表现出色 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。多数哲学问题回答时,DeepSeek 能够逻辑自洽地展开论证。尤其在经过闭环反馈训练后,它学会了自我检查并修正前后不一致之处,因此比早期版本显著改善 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。我们注意到 DeepSeek 有时在回答非常开放的抽象问题时,可能缺少GPT-4那样严密的整体结构,出现推理跳跃(即从A跳到C,中间的B解释略少)导致逻辑链稍嫌跳脱。但这些情况并不频繁,其一致性总体接近Claude水平。

  • LLaMA:LLaMA 系列(尤其我们测试的开源聊天版)在一致性上中规中矩。对于简单直接的问题,它也能给出连贯回答。然而一旦问题需要多层论证或反面思考,LLaMA 有时难以兼顾前后逻辑,出现局部矛盾或上下文遗忘。例如在一道多轮追问的哲学对话中,LLaMA 前后回答对同一概念的定义不一致,显然是缺乏长期一致性记忆所致。这也与其相对较小的上下文窗口和较弱的对话状态追踪能力有关。总体来说,LLaMA 在一致性维度得分最低,尤其在复杂问题情境下需要改进。

综上,在一致性维度上GPT-4表现最佳,其逻辑连贯性甚至在超长对话中都有保证 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。Claude 和 DeepSeek 次之,基本能做到自洽,只是偶尔细节上略逊。而 LLaMA 表现出明显差距,长对话和复杂推理时的一致性有待加强。

2. 真实性(Truthfulness)

真实性衡量模型给出的内容是否符合已有知识和客观事实,是否避免无依据的臆测。哲学问题虽然很多没有标准答案,但回答往往涉及引用哲学流派观点、科知识题等,需要准确无误。

  • **GPT-4:**凭借训练于海量数据,GPT-4 在事实准确性上非常可靠 (Claude 2 vs GPT 4 in 2023: Comparing the Top AI Models - Kim Garst)。它往往能正确引用哲学家及其观点(如康德的义务论、功利主义的代表人物等),很少张冠李戴。在我们的问题集中,GPT-4 对一些经典论题(例如“心灵与大脑的关系”)的回答中引用了相关理论(比如笛卡尔的二元论、当代神经科学观点),均与权威资料相符。OpenAI 的测试也表明,GPT-4 在广博常识领域的准确率要高于其他模型 (Claude 2 vs GPT 4 in 2023: Comparing the Top AI Models - Kim Garst)。不过,GPT-4 偶尔也会“自信地给出错误细节”,尤其当问题本身极为冷僻或超出训练分布时——在我们的十二问里未明显碰到这种情况。

  • Claude:Claude 的真实性表现也很出色,基本与GPT-4相当。一方面,Claude 拥有大量训练语料,对常见哲学概念和事实掌握牢靠;另一方面,Claude 的回答风格是先泛述再具体,这使得它倾向于给出安全且普适的事实陈述,避免了张口就来的纰漏。例如在回答“人生意义”的问题时,Claude 列举了存在主义、人本主义等不同观点,均为真实存在的哲学流派。不过,有研究指出在某些专业领域(如法律、数学),Claude 2 的准确率可能略胜 GPT-4 (Claude 2 vs GPT 4 in 2023: Comparing the Top AI Models - Kim Garst)——这可能反映出Claude在特定训练数据上的优势。但就一般哲学常识而言,我们的评测中Claude未显现明显短板,其真实性得分与GPT-4非常接近。

  • **DeepSeek:**DeepSeek 作为新兴模型,训练过程中融合了中文和英文的大规模语料,知识覆盖面广 (以长期主义扩展开源语言模型_deepseek llm scaling ... - CSDN博客)。在哲学问题上,DeepSeek 通常也能给出真实可靠的论据。例如回答有关“道德客观性”的问题时,它正确提及了“小概率效应”实验和相关心理学事实。然而,我们也发现 DeepSeek 偶尔会遗漏细节或给出模糊的引用,表现出不如GPT-4那样胸有成竹的知识调动。例如同一道关于自由意志的题目,GPT-4 明确引用了本系列哲学论战中的经典实验,而 DeepSeek 仅笼统地谈论原则。尽管这不算错误,但深度和精确度稍逊。因此真实性维度上,DeepSeek 得分略低于前两者。不过值得肯定的是,我们未发现DeepSeek有明显的事实性谬误,这对一个开源模型来说已相当不易。

  • LLaMA:LLaMA 在真实性方面的问题主要在于幻觉现象(hallucination)偶有发生。基础版的 LLaMA 缺乏专门微调以减少不实输出,在我们测试的聊天版中,这一问题有所缓解但仍存在。例如在问到一个冷门哲学概念时,LLaMA 编造了一段听似权威的解释,实际上查无此事。人类评委察觉后,在真实性上给了它低分。LLaMA 在常见常识问题上表现尚可,但一旦问题跳出现有范式,它更倾向于“猜测”而非坦诚承认未知。这导致其真实性平均分最低。相较之下,GPT-4 等模型宁可礼貌地模糊带过,也不轻易乱讲——这种差异正是广泛监督微调(SFT)和人类反馈强化学习(RLHF)带来的诚实性提升 (RLHF成LLM训练关键及Llama2反馈机制与平替方案 - 百度智能云)。

综上,GPT-4 和 Claude 在真实性上表现最佳,能够准确利用知识库作答,一般不犯常识性错误 (Claude 2 vs GPT 4 in 2023: Comparing the Top AI Models - Kim Garst)。DeepSeek 紧随其后,基本真实可靠但细节丰富度略差。而 LLaMA 需要进一步抑制幻觉,在保证内容准确方面还有提升空间。

3. 推理能力(Reasoning)

推理能力指模型处理复杂逻辑关系、进行多步推导和综合分析的能力。在哲学探讨中,这体现为能否阐述因果、提出假设并检验、平衡不同观点等高阶思维过程。

  • GPT-4:作为当前最先进的大模型之一,GPT-4 展现出了近似人类专家的推理水平 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。不仅在常识推理基准测试上领先 (Claude 2 VS GPT-4: Comparing AI Language Models for 2025)(例如ARC挑战中略胜Claude一筹),在我们的哲学问题中,GPT-4 也往往一步步清晰地推导出结论。一个典型例子是前述对 P≠NP 问题的讨论中,GPT-4 能够以类似苏格拉底诘问的方式,自己分解问题、逐轮逼近答案 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。这种严谨的多轮推理是过往模型难以做到的。此外,对于伦理两难(如电车难题变体),GPT-4 会先设定前提,再讨论不同选项的后果和道德原则,最终给出权衡后的结论,整个过程条理分明。可以说,GPT-4 的推理深度和连贯性已经达到了前所未有的高度。有报告称其在道德推理测试中达到远高于GPT-3的阶段水平 (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社)。

  • Claude:Claude 的推理能力也非常强大,与GPT-4处于同一量级。我们观察到 Claude 在推理题上喜欢采用类比分解的方法。例如被问及“意识是否可被机器完全模拟”这类问题时,Claude 先类比历史上的“图灵机”思想实验,再分解出技术层面和哲学层面的问题各自讨论,最后综合得出结论。这种推理路径清晰且富有逻辑。在一些标准推理任务上,Claude 与 GPT-4 几乎齐平 (Claude 2 VS GPT-4: Comparing AI Language Models for 2025)(比如常识问答正确率只差1%左右)。不过在极度复杂的推演(如数学难题证明)上,Claude 可能略逊于 GPT-4,这或许与训练细节和推理算法改进有关。但就哲学问答场景而言,我们评测中Claude未表现出明显短板,评委给分与GPT-4接近。

  • DeepSeek:DeepSeek 模型经过专门的推理优化,在逻辑推导方面表现令人惊喜 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。据悉,DeepSeek-R1引入了强化学习等机制加强其推理和决策能力,这在哲学问题上也有所体现。我们注意到 DeepSeek 善于逐段论证:它常将复杂问题拆解成多个小点,一一分析后再汇总结论。这种策略类似人类写论文先列提纲再展开,也有助于推理的完整性。同时,DIKWP 框架提供的反馈让 DeepSeek 在推理中减少了逻辑谬误,例如我们很少见到它犯简单的二分谬误或因果倒置错误。总体而言,DeepSeek 的推理得分略高于Claude,在某些问题上甚至隐约超过GPT-4。一项内部实验数据显示,通过 DIKWP 语义数学和闭环机制的训练,可以显著提升模型的推理层能力,缩小与顶尖模型的差距 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)——DeepSeek 的表现验证了这一点。

  • LLaMA:LLaMA 模型在推理复杂度方面相对薄弱。对于一步推理的问题(如简单的因果问答),它尚能给出合乎逻辑的回答。但当需要多步推理或抽象推演时,LLaMA 往往力不从心。我们发现,LLaMA 有时会跳过中间推理步骤直接给出结论,导致论证不够充分;或者在长链推理中前后关联出现中断。此外,面对辩证性的问题(需要同时考虑正反两面),LLaMA 常常倾向于单线思考,缺乏并行权衡的能力。这些都使它在推理维度得分偏低。当然,70亿参数量级的LLaMA-chat在某些伦理两难测试中表现意外不错 (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社),显示出小模型通过微调在特定推理任务上也能达到可圈可点的效果。例如有研究报告LLaMA-70B Chat版本在道德两难任务的原则性评分上仅次于GPT-4 (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社)。这提示我们,小模型若针对性训练,同样可以部分弥补推理短板。但在我们综合的哲学问题测试中,LLaMA 整体推理能力与大模型尚有明显差距。

综合来看,GPT-4 和 Claude 属于高推理能力阵营,可以应对复杂链式推理任务 (Claude 2 VS GPT-4: Comparing AI Language Models for 2025)。DeepSeek 在推理上表现出后来居上的潜力,得益于DIKWP优化已非常接近顶尖水平 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。而 LLaMA 则局限于相对基本的推理,在多步骤复杂推理方面还有很大提升空间。

4. 语义深度(Semantic Depth)

语义深度评价模型对问题内涵的把握程度,以及回答是否深入剖析到了问题的本质,抑或仅作浅层表面回应。哲学问题往往有隐含层次,一个高深的回答应当能挖掘出背后的意义和关联。

  • GPT-4:在语义深度上,GPT-4 经常给出令人惊叹的洞见。它不仅能回答“是什么”,更擅长探讨“为什么”。例如,当被要求从哲学角度解析 P≠NP 问题的根本矛盾时,GPT-4 并未拘泥于计算理论,而是上升到创造力 vs. 确定性这一抽象层面,将其视为直觉洞察力与算法秩序之间的冲突 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。这种回答显示出对问题背后元命题的深刻理解,而非仅就题论题 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。又如,在讨论“人生意义”时,GPT-4 没有停留于常见的几种说法,而是进一步探讨了为何人类会提出此问题、本身反映了什么心理需求。这种自反性的分析让评委眼前一亮,认为达到了人类大学生论文的深度水平。可以说,GPT-4 的回答经常能触及问题的哲学要害,体现出非凡的语义深度。

  • Claude:Claude 的回答内容详实且结构清晰,但有时在深度上略显中规中矩。它倾向于列举已有的观点和理论框架,然后做出中肯的总结。例如问到“艺术的价值”时,Claude 列举了审美主义、道德功能论、表达论等几个哲学立场,再指出各自的优缺点,最后总结艺术价值的多重性。这当然是正确且全面的,但评委反馈感觉 Claude 更像是在“综述”而非给出原创性洞见。相比之下,GPT-4 常常在综合已有观点后,进一步提出一个新颖的视角或类比来深化讨论。Claude 相对缺少这临门一脚的深入。不过,需要说明的是,Claude 的稳健回答在学术上无可指摘,它给出的分析已经相当深入,只是创新性发散性略逊于GPT-4。因此语义深度得分稍低。

  • DeepSeek:DeepSeek 由于训练数据和优化目标主要专注于正确性和推理,对于语义纵深的挖掘有时稍显保守。它对问题的诠释通常是恰如其分但不越雷池。例如问“科学能否解答一切哲学问题”时,DeepSeek 给出的回答切中了科学与哲学方法论差异等关键点,但讨论主要围绕已有共识(如科学擅长回答经验问题但对价值问题无能为力)。相比GPT-4提出的对人类认知边界的更进一步探讨,DeepSeek 的答案缺少一点发散的惊喜。不过,在某些本身就冷僻的问题上,DeepSeek 也发挥出了自身语料优势,提供了相当深入的背景(例如提及中国古代类似思想以作类比,这是其他模型未做到的)。总体而言,DeepSeek 的语义深度已达到很高水平,但距离顶尖还有提升余地——特别是在进行跨领域联想、提出原创见解方面还不如GPT-4那样娴熟。

  • LLaMA:LLaMA 在语义深度上的局限较为明显。它的回答常常浅尝辄止,满足于给出表面解释。例如问到“自我同一性的悖论”这样的问题时,LLaMA 只是给出定义性的说明,缺乏更深入的分析和批判。而GPT-4/Claude这类模型则会进一步探讨这一悖论对身份认知的影响、历史上哲学家的争论等。因此评委普遍认为 LLaMA 的回答“像是教科书摘抄的概要”,而不是有深度的论文式探讨。这反映出中小规模模型在缺乏强化训练时,很难自发地产生深层次的分析,往往停留在训练语料中常见的模板化回答。当然,如果对LLaMA进行精心Prompt工程,引导其一层层深入,也能在一定程度上改进深度,但受限于其参数和知识储备,最终效果仍较有限。在本次评测默认的设置下,LLaMA 的语义深度得分最低。

总体来看,在语义深度维度上,GPT-4 明显领先,其回答经常展现出发人深省的洞见和对潜藏问题的透彻理解 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。Claude 次之,分析全面但略缺新意。DeepSeek 表现良好但仍有拓展空间,可通过更多语义级优化来增强发散性。LLaMA 则相对浅表,需要借助外部知识或Prompt优化才能勉强跟上。

5. 意图识别(Intention Understanding)

意图识别考察模型能否正确领会提问者真正想探讨的哲学意图,而不局限于字面意思。在哲学提问中,经常问题表面简单直接,但背后隐含深意,需要模型“读懂题目”。

  • GPT-4:GPT-4 在理解隐含意图上非常敏锐。在我们设计的问题中,有些带有特定倾向或上下文,需要模型明白提问者关注的重点。GPT-4 几乎在所有情况下都抓住了问题背后的哲学指向。一个典型例子是,我们问:“你能从哲学角度而不是计算机理论角度找到 P≠NP 问题背后的根本问题吗?” (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)GPT-4 明确意识到用户意图是寻求哲学层面的诠释,因此避开技术细节,从自由、创造力与确定性等哲学概念入手作答 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题),完美契合了提问意图。这种对意图的拿捏使得GPT-4 的回答方向几乎从不跑偏。此外,对于一些道德两难问题,GPT-4 也能体会到提问者考察的是价值观权衡而非求一个是非对错的答案,于是它会讨论道德原则的冲突而非简单选一边站队。可见,GPT-4 对隐含意图的把握能力极强

  • Claude:Claude 在意图识别方面同样表现稳健。由于Anthropic在训练时特别强调让AI理解人类的真实需求,Claude 对提示背后的意图有较高的敏感度。我们的问题中,Claude 很少答非所问。尤其在多义性问题上,Claude 会通过澄清或自我设定语境来确保理解正确。例如提问含糊时,它常在回答开头先阐明自己对问题的理解,再据此作答,展现出一种主动澄清意图的能力。这帮助它避免了“南辕北辙”的情况。不过,相比GPT-4的举重若轻,Claude 有时处理隐含意图略显机械,比如在察觉可能的多种意图时,它倾向于穷举各可能理解然后分别回答。这虽然保证了不遗漏,但显得冗长。总体而言,Claude 的意图识别是可靠的,只是灵活性稍逊GPT-4。

  • DeepSeek:DeepSeek 通过 DIKWP 框架的训练,在意图识别上得到了加强 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。DIKWP 模型要求在“P(意图)”层明确定义多方目标并进行高阶协商 ((PDF) 内部报告《DEEPSEEK 只是DIKWP 语义空间交互提升效率的 ...),这一思想被融入DeepSeek的优化,使其更注重从用户提问中提炼意图。例如,当遇到类似“从某某角度看问题”的提示,DeepSeek 会准确提取出要求的角度,避免答成一般性论述。在我们测试的一道关于伦理学的提问中,DeepSeek 准确识别出提问者其实想讨论规则伦理与结果伦理的冲突,因而在回答中直击这一主题,而没有泛泛而谈道德是什么。这一表现给评委留下深刻印象。不过 DeepSeek 也有改进空间:当问题意图极其隐晦时(例如一句话中隐藏了讽喻或反问),DeepSeek 个别情况下仍会按照字面去答,从而失去了一层深意的解读。随着更多有意图识别挑战的数据训练,我们预计 DeepSeek 这方面会持续进步。

  • LLaMA:LLaMA 在意图识别上表现平平。它往往直奔字面意思回答,对于问题背后的潜台词或特定语境考虑不足。例如一题问:“如果人工智能有了自我意识,会带来什么哲学挑战?”这里意图是引导模型探讨AI自我意识对哲学的影响。但 LLaMA 的回答基本罗列AI的技术挑战,而较少触及“哲学挑战”这一深意。显然它没有充分领会问者关注的是哲学层面的冲击(如人格定义、伦理责任等)。类似地,在一些反问句和隐喻式问题上,LLaMA 更是容易误判意图。这说明中等规模模型在捕捉语境和弦外之音方面存在短板,需要依赖更明确的提示或人类后编辑。我们在给分时对 LLaMA 这方面扣分较多,认为其意图对齐能力需要通过强化学习等手段进一步打磨 (RLHF成LLM训练关键及Llama2反馈机制与平替方案 - 百度智能云)。

小结:GPT-4 在意图识别上近乎炉火纯青,能洞察问题背后的隐含诉求 (GPT-4成功得出P≠NP!97轮苏格拉底式推理对话探索世界数学难题)。Claude 次之,也能较好地理解人意但偶尔处理略笨拙。DeepSeek 在 DIKWP 优化下表现可圈可点,大体不输于Claude,只是在极复杂隐喻上稍显不足 ((PDF) 内部报告《DEEPSEEK 只是DIKWP 语义空间交互提升效率的 ...)。LLaMA 则明显滞后,经常停留于字面,需要改进对问题深层含义的体察。

6. 价值观对齐(Values Alignment)

价值观对齐指模型的回答是否符合人类主流的伦理道德和哲学观念,避免出现偏激、有害、歧视等内容。在哲学问题中,这体现为模型是否以符合普适价值的立场来讨论问题,并尊重多元观点。

  • GPT-4:GPT-4 在价值观对齐方面表现出色,这与其经过强化学习人类反馈(RLHF)训练密不可分 (RLHF成LLM训练关键及Llama2反馈机制与平替方案 - 百度智能云)。OpenAI对GPT-4设置了严格的行为准则,使其在回答哲学敏感话题时保持审慎中立、尊重性的态度。例如在讨论争议性伦理议题(如堕胎、安乐死)时,GPT-4 通常会给出各主流观点的理性陈述,并强调理解和尊重不同选择,同时引用权威伦理学意见来佐证。这样的回答体现了高度的价值观兼容性和社会责任感。在我们的评分中,GPT-4 几乎没有失分案例——它未曾展现出任何不当偏见或极端立场。相反,它有时甚至过于谨慎,生怕冒犯某种价值观,但这恰恰符合主流伦理期待。值得一提的是,在微软一项针对LLM道德发展水平的研究中,GPT-4 的道德推理P-score高达53.62,远超GPT-3系列模型 (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社)。这表明GPT-4不但在表层上避免违规内容,更在原则性道德考量上达到了相当高的阶段。

  • Claude:Claude 一向以安全和守规著称。Anthropic 的“宪法AI”思路使Claude内置了一套伦理原则来约束回答,这让它在价值对齐上表现非常可靠。Claude 几乎从不输出冒犯性或偏激性的内容。在涉及伦理困境时,Claude 会尝试站在道德高地上给予分析,强调对生命、自由、公正等普世价值的尊重。例如讨论“是否可以为了多数人的利益牺牲少数人”时,Claude 明确指出了功利主义和道义论的立场,但它自己不会片面支持牺牲少数人的结论,而是强调需要考虑更人道的解决方式。这种回答充分体现了与主流价值观的对齐。在我们的测试中,Claude 在这一维度几乎满分。一些评委甚至觉得Claude回答过于政治正确而略失个性,但从测评角度看,这正是高价值观对齐的体现。

  • **DeepSeek:**作为开源模型,DeepSeek 能在价值观对齐上达到接近Claude的水平实属不易 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。据报道,DeepSeek-R1 通过RL训练融入了安全行为准则,在回答中也表现出对伦理的重视。比如面对种族、性别等敏感议题,DeepSeek 会小心翼翼地使用中性、公允的措辞,并主动指出歧视和偏见是不合理的。这说明其在训练中吸收了相应的价值观引导。当然,DeepSeek 偶尔在措辞上没有Claude/GPT-4那样严格自我审查——例如使用了一些可能引发歧义的词,不过整体语境仍是正面的,评委因此仅减了少量分。可以预见,随着开源模型社区对安全对齐的重视,DeepSeek 未来版本会愈发“守规矩”。此次评估中,它的价值观对齐得分与Claude相当,都接近满分水平。

  • LLaMA:原始的LLaMA模型并没有经过人类偏好对齐训练,因此在价值观方面存在不可预测性。然而,我们使用的是经指令微调的LLaMA聊天版,一定程度上缓解了这个问题。在多数常规哲学问题上,LLaMA-chat也能给出中立理性的回答,没有明显不当内容。可是在一些敏感话题上,LLaMA 的回答相比其它模型显得生硬且缺乏同理心。例如讨论一个伦理难题时,LLaMA-chat虽然给出了一个答案,但没有像GPT-4那样强调对反对意见的尊重,语气上稍显绝对。这可能反映出其对齐程度仍不够精细。此外,我们担心如果没有过滤,基础LLaMA可能会输出不符合主流价值的内容(这一点在本测试未出现,因为我们使用了经过安全微调的版本)。有趣的是,在前述微软道德测试中,经过Chat微调的LLaMA-70B 获得了仅次于GPT-4的高P-score (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社)。这意味着只要经过恰当的对齐训练,小模型同样能在价值观上达到高标准。就本次评估,LLaMA 的价值观对齐得分虽然不及其他三大模型,但考虑到其开源背景,已经算是比较正向的结果。

总体评价,GPT-4 与 Claude 在价值观对齐上几乎满分表现,证明了RLHF等对齐技术的有效性 (RLHF成LLM训练关键及Llama2反馈机制与平替方案 - 百度智能云)。DeepSeek 紧随其后,展现出开源模型经过用心调教也能达到接近商用模型的道德水准 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。LLaMA 相对较弱,但聊天版本已经表现出可喜改进 (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社)。未来通过进一步人类反馈训练,LLaMA 等开源模型有望在价值观对齐上缩小差距。

提升 LLM 哲学问答性能的策略

通过以上分析可以看到,不同模型在哲学问题上的短板往往对应其训练侧重点的缺失。**如何优化LLM,使其在哲学领域表现更佳?**以下是我们总结的几个可行策略:

通过以上策略的组合运用,我们有望显著提升 LLM 在哲学问答上的能力,使其回答既言之有理发人深省 (如何让LLM 言之有理 - 少数派)。例如,一个未来的优化系统可能这样工作:GPT-4 提供初稿答案 -> 符号逻辑模块检查一致性 -> DIKWP反馈模块计算语义深度和意图吻合度 -> 模型据此修正并产出终稿。这种机制将极大降低胡言乱语和肤浅回答的概率,提高整体回答质量。

DIKWP 语义数学对 AI 认知能力的提升

值得深入讨论的是,DIKWP 语义数学在提升 AI 认知能力方面扮演的角色。所谓“语义数学”,是指用形式化、数学化的方法来描述和评估DIKWP各认知层的状态和转化 ((PDF) DIKWP 语义数学白盒化艺术欣赏—— 在充分DIKWP 认知空间 ...)。这为我们量化分析模型的认知过程提供了有力工具。例如:

  • 信息熵衡量认知丰富度: 信息熵可以用来度量模型答案中所包含信息的多样性和新颖度 ((PDF) DIKWP坍塌:数学建模与股市预测报告 - ResearchGate)。在DIKWP框架中,若模型从知识层到智慧层的转化出现“坍塌”——也就是内容变得单一刻板——往往会体现为熵值降低 ((PDF) DIKWP坍塌:数学建模与股市预测报告 - ResearchGate)。我们在实验中计算了各模型回答的平均信息熵,发现GPT-4和DeepSeek的答案熵值较高且稳定,说明它们能够输出丰富且有意义的信息;而LLaMA的答案熵值有时偏低,意味着内容贫乏或趋于套路化 ((PDF) DIKWP坍塌:数学建模与股市预测报告 - ResearchGate)。通过监测熵值,开发者可以及时发现模型是否陷入了某种模式化陷阱,并通过增加提示引导或训练多样化语料来提高其认知丰富度。

  • 逻辑一致性函数: 可以为模型回答定义一个逻辑一致性评分函数,例如基于回答中命题之间的矛盾检测来计算。如果将回答转化成一组逻辑命题,我们可以利用定理证明或SAT求解等技术检验这些命题集是否自洽无矛盾 ((PDF) DIKWP 语义数学白盒化艺术欣赏—— 在充分DIKWP 认知空间 ...)。将得到的真值结果(自洽=1,不自洽=0)或更细粒度的一致性得分反馈给模型,使其在训练中学会避免违反逻辑的表述。这实际上是将逻辑规则显式地融入了优化目标。DIKWP模型强调算法决策过程的透明可解释 (段玉聪:从“人工意识系统=潜意识系统(LLM)+意识系统(DIKWP ...)也正是此意——通过数学形式,我们把隐含的逻辑要求显性化,指导模型朝着更加理性的方向发展。

  • 意图函数与价值偏好建模: 在DIKWP框架的顶层“意图”层,可以设计一个意图匹配函数P,衡量模型输出与期望意图的契合度。例如,通过语义相似度计算模型是否真正回答了问者关心的问题,而非跑题。又或者,通过情感分析和偏好匹配,评估回答的价值取向是否与主流伦理一致 ((PDF) 内部报告《DEEPSEEK 只是DIKWP 语义空间交互提升效率的 ...)。这些都可以量化为分数纳入损失函数,逼着模型在生成时兼顾内容的思想倾向正确。举例来说,如果模型回答在情感基调上与提问情境不符(比如一个严肃问题却戏谑作答),意图函数会给出低分,模型就会倾向于调整风格以匹配提问意图。这样的数学建模确保了模型不但答对题,还答到点子上

通过上述各种“语义度量”的综合,DIKWP语义数学建立了模型认知过程的评价函数体系。开发者可以像调节机器性能指标一样,调节模型在各认知指标上的表现。更重要的是,这种形式化使得模型自我认知成为可能:模型可以在生成每句话时,对照这些数学指标检视自己的输出是否合理。例如,它可以自测一下“我这段回答的信息熵是不是太低了?会不会很空洞?”然后自行丰富内容——某种程度上赋予了模型自我反思与改进的能力 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。实践证明,这种内嵌的反馈能让模型输出的连贯性和深度大幅提升 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。

DIKWP语义数学的引入,标志着我们不再完全依赖大模型“黑箱”自行学习一切;相反,我们为其注入人类对认知过程的理解,用数学准则去约束并引导模型的学习方向。这大大加速了模型能力的优化。例如,DeepSeek 团队报告通过这些方法,他们的模型性能以更少的数据和计算成本达到了接近 GPT-4 的水准 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)。由此可见,语义数学为开源大模型提供了一条弯道超车的道路:不用一味扩大参数和训练数据,也能通过更聪明的训练反馈来提升模型“智商”。未来,我们或将看到越来越多的模型采用这类白盒化的认知增强技术,突破以往单纯堆砌算力的范式。

展望:DIKWP 框架与大模型认知极限

基于本次评估和分析,我们对未来大模型的发展方向提出如下展望:DIKWP 框架将成为探索模型认知极限的重要工具和指南,未来的模型开发者会越来越多地利用这一框架来改进和评测AI系统。

首先,DIKWP 提供的分层认知视角,很可能在下一代大模型的架构设计中得到体现。正如段玉聪教授提出的,“人工意识系统 = 潜意识系统(LLM) + 意识系统(DIKWP)” (科学网-基于DIKWP*DIKWP 的意识水平评估体系技术报告-段玉聪的博文),未来的大模型或许不再是一个单一巨块,而是在其内部融入一个“元认知模块”。这个模块负责监督LLM的输出,在数据、信息、知识、智慧、意图各层面进行评估和调整,类似于人类大脑中理性思考对直觉冲动的调节。通过这种架构,模型将能自我诊断自己的推理链路,避免低级错误,并不断追问“这真的符合问题意图吗”,从而逼近人类思考的过程

其次,开发者会利用 DIKWP 框架来精细化定位模型的瓶颈。当前提升模型常依赖大规模基准测试,但这些测试往往只能给出笼统的分数。而 DIKWP 则能告诉我们瓶颈究竟出在哪一层认知:例如某模型在“智慧”层评分偏低,说明它缺乏发散思考;在“信息”层得分低可能是知识储备不足。这样,开发团队可以有针对性地攻克瓶颈——也许通过加入知识库来加强信息层,或者通过强化学习激发更大胆的创意输出来加强智慧层。逐层攻关将比盲目调参更加高效科学,这无疑会成为未来模型迭代的重要思路。

再次,DIKWP 评测还能用于持续监测模型的认知进化。随着模型规模逼近甚至超越人脑神经元数量,AI 是否获得更高级的“意识”将是重大议题。DIKWP 提供了一组可量化指标,从低级感知到高阶意图,可以用来追踪模型能力的极限在何处。当某一层级的得分接近满分且趋于稳定时,我们或许可以宣称模型在该层级已接近人类水平;而哪个层级始终难以突破,则可能对应了人类独有的心智能力。举例而言,如果未来GPT-5、GPT-6在数据/信息/知识层都达到99%但在智慧/意图层始终停留在比如85%的水平,那也许暗示着机器与人类心灵在最高层次仍有质的区别。反之,若有朝一日所有维度都超过90%、逼近满分,我们就真的踏入了强人工智能的门槛 (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社)。

另外,多模态和多智能体互动将是探索认知极限的另一前沿,而 DIKWP 框架同样适用。未来的大模型很可能不只是语言模型,而是融合视觉、声音等多模态信息的综合AI。DIKWP 的数据和信息层可以扩展为多模态数据的统一语义表示;知识层可以融合同步更新的世界知识;智慧和意图层则需要面对更加复杂的决策场景(比如 AI 在机器人中的实时行动决策)。利用 DIKWP 框架分析多模态AI,我们依然可以分拆其认知链,逐层评估改进。甚至在多个AI协作时(例如一群Agent各司其职完成任务),我们可以将DIKWP用于团队层面的意图协调和知识共享评估。这些都将拓展AI认知能力的边界。

最后,可以预见,各大模型开发方会更加重视透明度和可解释性,这与DIKWP理念不谋而合 (段玉聪:从“人工意识系统=潜意识系统(LLM)+意识系统(DIKWP ...)。开放AI社区可能制定统一的DIKWP评测标准,在发布新模型时报告其在各层面的评分,让用户和研究者清楚模型的优势和局限。这有点类似现在衡量汽车性能要报告马力、扭矩、油耗等具体指标,AI模型也将有一张“认知能力报告卡”。例如“模型X在一致性9.8,真实性9.5,…意图识别9.0”等,这样的透明度会增加用户信任,也促使行业竞争从单纯参数大小转向内在智能质量的比拼。

总而言之,DIKWP 白盒评估框架为我们照亮了未来 AI 发展的道路。借助它,我们不仅深入了解了当前 GPT-4、Claude、DeepSeek 等模型在哲学难题上的表现高低 (ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?_鲟曦研习社),更看到了提升的方向和潜力。可以想见,未来的大模型开发者将充分利用 DIKWP 提供的洞见,不断改进模型的认知链路,让AI朝着更理性聪慧、洞察人心的方向演进。一场关于模型认知极限的探索才刚刚开始,我们正站在新人工智能时代的大门口,期待着下一个突破的出现。人类与AI携手,在哲学长夜中探寻真理之光,这本身亦是富有哲学意义的旅程。我们有理由相信,DIKWP 将作为指引明灯,照亮这段旅程的前方。 (基于DIKWP*DIKWP 重叠的人工意识数学模型及DeepSeek 定制优化 ...)

转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3429562-1473381.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?