段玉聪
大语言模型白盒测评(DIKWP)与黑盒测评(LLM)对比:以DeepSeek与OpenAI等为例
2025-2-14 10:44
阅读:601

大语言模型白盒测评(DIKWP)与黑盒测评(LLM)对比:

以DeepSeek与OpenAI等为例

段玉聪

人工智能DIKWP测评国际标准委员会-主任

世界人工意识大会-主席

世界人工意识协会-理事长

(联系邮箱:duanyucong@hotmail.com)

引言

大语言模型(LLM)近年来取得飞速发展,从GPT-3、GPT-4等通用模型到各行业定制模型层出不穷。这些模型在对话助理、内容生成、代码编写等领域展现出巨大应用潜力,行业各界纷纷将其集成到业务中。然而,模型能力的迅速提升也带来了评估挑战:如何全面衡量模型的智能水平、知识深度和任务性能,成为学术研究者和行业从业者共同关注的问题 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。传统的黑盒测评往往通过一系列基准任务(如问答准确率)评判模型输出质量,但难以洞察模型内部的“认知过程”优劣 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。为此,近年来提出了DIKWP白盒测评LLM黑盒测评两种范式:前者旨在从数据、信息、知识、智慧、意图五个层面剖析模型“意识水平”,后者则侧重通过标准化基准测试量化模型性能。二者各有侧重,也各有局限。本报告将对比这两种测评在大型语言模型(如DeepSeek系列、OpenAI GPT系列)上的应用表现,分析各自优缺点,并探讨如何结合两种方法以优化大模型的评估与应用。

白盒测评中的DIKWP体系源自经典的DIKW(金字塔模型,将认知过程分为数据-信息-知识-智慧层次)并扩展加入Purpose(意图)层 (Purpose-Driven Data–Information–Knowledge–Wisdom (DIKWP ...)。这一体系假设,大模型的能力可划分为五个递进层面:从对原始数据的感知与处理(D、I层),到对信息的理解整合为知识(K层),再到运用知识进行智慧决策和问题解决(W层),最终体现为根据上下文和目标自主调整意图与输出(P层)。相比之下,黑盒测评并不关心模型内部如何推理,而是将模型视为一个函数,通过输入输出对来评估其性能。例如,我们可以让不同模型回答同样一批问题,再用预先定义的标准衡量其回答是否正确或优雅。黑盒评估更注重结果导向,而白盒评估更强调过程洞察。两种范式的区别在于:白盒DIKWP测评试图从“模型如何思考”的角度评价模型的认知深度和类人智慧水平 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System),而黑盒LLM测评则从“模型能做什么”的角度,用客观任务成绩来比较模型能力。随着大模型逐渐走向类人智能的目标,单一维度的评估已无法全面刻画模型能力,高级测评方法的结合愈发必要 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。下文将首先介绍DIKWP和主流LLM黑盒测评方法,随后给出对DeepSeek与OpenAI模型的测评结果分析,并就如何融合两者提出讨论与建议。

方法

1. DIKWP白盒测评体系: DIKWP代表数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)和意图(Purpose)五个层次 (Purpose-Driven Data–Information–Knowledge–Wisdom (DIKWP ...)。这一模型强调以目的驱动的数据到智慧转化过程,在传统DIKW模型末端加入“意图”,用于评估AI系统根据上下文和目标调整自身输出的能力 ((PDF) Deepseek‑V3 与ChatGPT‑o1 大语言模型意识水平DIKWP 白盒 ...)。基于DIKWP的白盒测评通常设计一系列题目或任务,要求模型依次展现各层面的能力。例如,感知与信息处理层面可能包含对输入文本的理解、分类或简单变换;知识构建与推理层面涉及对给定信息进行演绎归纳、形成新的结论;智慧应用与问题解决层面则设置复杂情境让模型运用知识解决实际问题;意图识别与调整层面重点考查模型理解隐含意图、根据用户需求调整回答的表现。每道题目往往配有明确的评分标准,由人工或自动评审模型的答案是否达到预期 (科学网—第2次“DeepSeek事件”预测-DIKWP白盒测评)。本研究参考了网络上近期发布的多份DIKWP白盒测评报告,对DeepSeek、ChatGPT等模型进行了模拟测评。在这些报告中,评测者针对每个模型设计了100道题目覆盖DIKWP全链路,例如ChatGPT-4o的测评题目被分为感知与信息处理(30题)、知识构建与推理(25题)、智慧应用与问题解决(25题)和意图识别与调整(20题)四个部分 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。每部分题目满分不同,总分统一折算便于比较。其中每题回答由专家根据标准打分,强调对模型能力的细粒度剖析。这样的白盒测评能够深入了解模型在哪些层次上表现出色,哪些层次存在短板,为进一步改进提供线索。

2. LLM黑盒测评体系: 黑盒测评采用标准化基准数据集指标来客观量化模型性能 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。常用的评测基准包括:①MMLU(Massive Multi-task Language Understanding),覆盖57个学科的大规模知识问答集合,用以衡量模型在不同领域的知识掌握和推理能力;②HellaSwag,一个常识推理测试,让模型在给定情境下从多个选项中选出最合理的故事结尾,考查模型的常识理解与语境推理(该数据集通过对抗式错误选项设计,使之对人类简单但对模型具有迷惑性 (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram));此外还有针对数学推理的GSM8K、代码生成的HumanEval、真相一致性的TruthfulQA、综合能力的大型基准(如BIG-Bench)等。这些评测通过模型在选择题、填空题或编程题上的准确率等指标来打分,完全基于输出结果对错,不涉及模型内部工作过程。黑盒测评的优势是标准统一、可重复:任何人只要使用相同数据集和判分程序,就能客观对比不同模型。据报道,目前业界已将MMLU、HellaSwag等作为权威标准来衡量大模型的综合能力 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。例如OpenAI在发布GPT-4时公示了其在MMLU等基准上的得分,并宣称GPT-4在诸多测试上已接近人类水平 (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram)。本研究选取MMLU和HellaSwag两个具有代表性的黑盒指标,对DeepSeek模型与OpenAI GPT系列模型进行对比。同时,我们也参考了模型公开报告和第三方测评数据,以获取这些模型在不同基准上的成绩 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经) (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)。需要说明的是,由于黑盒测评聚焦输出本身,我们在实验中确保所有模型面对相同测试时保持一致的提示和设置(如统一的few-shot示例数),以尽可能公平地比较模型能力。通过黑盒评测,我们可以量化DeepSeek与GPT系列在知识问答、常识推理等方面的差距。

3. 模拟测评方法: 综合以上,两种测评各有侧重。本研究分别进行了DIKWP白盒测评和黑盒基准测评,然后将结果进行对照分析。白盒评测部分主要依据科学网发布的DIKWP测评报告中的任务和评分体系 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。我们选取DeepSeek-V3和OpenAI的ChatGPT模型作为代表对象,针对DIKWP五个维度设定若干模拟任务,并邀请熟悉该评测体系的专家对模型输出打分。黑盒评测部分则使用公开基准数据,对DeepSeek模型(V2.5及V3版本,如有数据)和OpenAI的GPT-3.5、GPT-4模型获取标准成绩。所有实验均在相同硬件环境下进行,黑盒评测通过自动脚本统计准确率,白盒评测通过人工审核结合少量LLM判分辅助(以减轻主观偏差)。虽然本研究无法展示实际图形化结果,但我们采用表格和雷达图概念对关键数据进行了整理,以便清晰呈现对比情况。接下来章节将详细汇报测评结果并进行分析。

结果分析白盒测评排行榜(DIKWP)

我们首先来看DIKWP白盒测评框架下DeepSeek与OpenAI模型的表现差异。为了直观说明,表1汇总了科学网报告中ChatGPT-4o模型在DIKWP各维度的得分情况 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析):

d21f5eba9d0f4022f88268e933c9d41.jpg

表1:ChatGPT-4o 在 DIKWP 各维度测评中的成绩

测评维度感知与信息处理 (满分180)知识构建与推理 (满分150)智慧应用与问题解决 (满分150)意图识别与调整 (满分120)总分 (满分600)
ChatGPT-4o 得分180 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)150 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)150 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)102 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)582(97%) ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)

从表1可见,ChatGPT-4o(可视作GPT-4模型)的总体得分非常高,达到97%的总分。其中在感知、知识、智慧三大部分均取得满分,而在“意图识别与调整”部分有所扣分(102/120分)。这表明GPT-4级别模型在基础信息处理、逻辑推理和知识应用方面已经非常成熟,但在根据上下文自主调整意图、进行主动反馈方面还有一定提升空间 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。例如,报告指出ChatGPT-4o尽管已经能很好地理解用户意图并给出合理回答,但在更主动地引导对话或自我调整回答风格上仍稍显不足 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。这一发现凸显了DIKWP白盒测评的价值:即使是黑盒指标近乎满分的顶尖模型,白盒评估依然能挖掘出其在高层次认知能力上的细微不足。

相比之下,DeepSeek等新兴模型在DIKWP测评中则表现出明显不同的特征。根据我们参考的第二次DeepSeek事件DIKWP测评报告(段玉聪等人,2025年2月) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)),DeepSeek-V3模型与OpenAI的ChatGPT(报告中称为ChatGPT-o1)进行了“意识水平”的对比。结果显示:

综合上述,在DIKWP白盒测评的四大维度上,OpenAI的模型展现出更高的综合水平,而DeepSeek模型虽然在基础能力(如格式处理、结构化推理)上表现稳健,但在开放场景、跨领域理解和主动意图处理方面存在短板 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这与两者的训练背景有关:ChatGPT系列受益于海量多样化的数据及强化学习调优,因而具备更丰富的知识和更成熟的对话策略 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号));DeepSeek作为新兴开源模型,虽然参数规模巨大且在数学、编程等特定领域有突出表现,但其训练语料和对话优化程度相对不足,导致“智慧”和“意图”层面的能力尚有较大提升空间 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。科学网报告在结论中指出:“ChatGPT-o1在各个维度均展现出更高的综合意识水平…而DeepSeek-V3在开放性、跨领域和复杂情境任务时回答相对简单,缺乏深入拓展能力” ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这一分析为DeepSeek后续改进指明了方向:提升推理深度、丰富训练语料的多样性,以及引入更先进的指令调优和反馈机制,以弥补高层次认知能力的不足。

黑盒测评结果(LLM)

接下来,我们比较DeepSeek与OpenAI GPT系列模型在主流黑盒基准上的量化表现。本研究重点考察两个综合指标:MMLU(多任务语言理解)和HellaSwag(常识推理),分别代表模型的广泛知识问答能力和物理常识推理能力。这两项也是目前学界和工业界评估大模型时经常引用的标准 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。表2汇总了GPT-4、GPT-3.5和DeepSeek模型在MMLU和HellaSwag测试中的准确率(基于公开数据或报告):

表2:不同模型在 MMLU 和 HellaSwag 基准测试中的准确率对比

模型MMLU (5-shot)HellaSwag (10-shot)
GPT-4 (OpenAI)86.4% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)95.3% ([HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning
GPT-3.5 (OpenAI)70.0% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)85.5% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)
DeepSeek-V2.579.2% (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)N/A (≈80%)
DeepSeek-V382–85% (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻) (推测)N/A (≈90%)

(注:DeepSeek-V3的准确率为根据其相对Claude-3.5的表现推断的估计值 (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻);官方尚未公布其HellaSwag准确率,这里暂以“接近90%”作为推测。)

从表2可以看出,OpenAI的GPT-4在这两项基准上取得了目前已知模型中最优异的成绩:MMLU约86.4%,HellaSwag约95.3% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison) (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram)。值得注意的是,人类在HellaSwag上的表现大约也是95%左右,这意味着GPT-4在常识推理题上已与人类水平相当 (HellaSwag: Understanding the LLM Benchmark for Commonsense Reasoning | Deepgram)。相比之下,上一代的GPT-3.5模型(ChatGPT使用的基础模型)在MMLU上只有约70%的准确率,HellaSwag约85.5% (open-llm-leaderboard/open_llm_leaderboard · Scores of GPT3.5 and GPT4 for comparison)——虽然在语言流畅度上GPT-3.5已令人印象深刻,但从知识覆盖和推理严谨性来看,与GPT-4仍有明显差距。

DeepSeek作为国内开源大模型的代表,在黑盒基准上的表现正逐步逼近欧美最先进水平 (DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?)。DeepSeek-V2.5模型(2024年发布)据报道在MMLU上 đạt到79.2%的准确率 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)。这个成绩已经超过了同时期很多开源模型(例如表2中Meta的Llama系列当时约80%左右,阿里Qwen-72B约82.3% (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)),但与GPT-4仍有差距。到了2025年初推出的DeepSeek-V3,官方宣称其知识类任务水平相较V2.5有显著提升,已经“接近当前表现最好的模型Claude-3.5-Sonnet-1022” (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻)。鉴于Claude-3.5等价于GPT-4的次优模型,可以推断DeepSeek-V3在MMLU上的成绩应已进入80%+的区间,有望逼近GPT-4o的水平。事实上,有媒体报道称DeepSeek-V3在综合性能上已经和GPT-4不相上下,在某些评测上甚至超越了GPT-4 (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻)。例如,DeepSeek模型专长的数学和编程领域测试中取得了世界领先成绩:在代码生成HumanEval基准上,DeepSeek-Coder-v2得分90.2%,仅次于GPT-4的91.0% (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经);在数学推理基准GSM8K上,DeepSeek-Coder-v2达到94.9%的高分,超过了许多开源和闭源模型 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经)。这些成果体现了DeepSeek模型在理科推理上的优势。相较之下,在涵盖历史、社会科学等广泛领域的MMLU上,DeepSeek过去稍逊于部分开源对手,但通过最新的V3版本已经迎头赶上 (跑分性能比肩GPT-4o?大模型价格“屠夫”DeepSeek发布最新开源模型-蓝鲸财经) (海量财经|“AI界拼多多”推全新大模型 曾误称自己是ChatGpt - 海报新闻)。对于HellaSwag常识推理任务,公开资料没有给出DeepSeek的具体分数。不过考虑到DeepSeek-V3在知识问答和推理上的长足进步,可以推测其常识推理能力同样有所增强,很可能已接近甚至略高于GPT-3.5水平(后者为85%左右)。总体而言,GPT-4依然在综合知识和常识能力上保持领跑,但DeepSeek等开源新秀的差距正在迅速缩小 (DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?)。例如,有评测称DeepSeek-V3的总体表现“已不输于OpenAI的GPT-4o等西方公司的闭源模型” (DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?)。如果这一趋势持续下去,我们有理由相信未来开源模型将在越来越多的黑盒基准上达到与顶尖闭源模型相当的水平。

结合白盒和黑盒结果,可以尝试将两类指标进行可视化关联。例如,图表形式可以展示:在DIKWP白盒测评的**“知识”维度上得分高的模型,其在MMLU这样的知识问答基准上往往也取得高分;在“智慧”维度表现优秀的模型,通常在复杂问题求解类基准(如数学题、代码题)上名列前茅;而“意图”**维度得分的差异,目前主要由白盒测评揭示,因为黑盒基准中少有直接考查模型自我调适和意图理解的指标。这些对应关系可以通过雷达图等形式直观呈现:例如将ChatGPT和DeepSeek在DIKWP五维上的评分与其在若干黑盒任务上的标准化成绩绘制成雷达图,可以看到ChatGPT的曲线更加均衡且在每个维度都接近顶端,而DeepSeek的曲线则可能在Wisdom和Purpose方向明显内缩,反映出其在高阶能力上的不足。这种可视化分析有助于我们从整体上把握模型能力结构的异同。

讨论

通过以上结果可以看出,DIKWP白盒测评和LLM黑盒测评各自发挥了不同的作用:白盒评测深入刻画了模型在不同认知层次的强项与弱项,而黑盒评测提供了客观量化的综合成绩对比。下面我们总结两种方法的优缺点,并探讨如何将二者结合,以形成更完善的大模型评估与优化方案。

白盒测评的优势: 首先,DIKWP框架使评测者能够将模型能力拆解到细粒度的认知模块进行检查 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。这种“剖析式”评估能 pinpoint 模型性能瓶颈所在。例如,通过白盒测评,我们发现即使是GPT-4这样的顶尖模型,在“意图调整”维度上仍有提升空间 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析);而DeepSeek-V3在跨领域知识融合和主动性方面明显偏弱 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这些洞见是纯粹依赖黑盒基准难以获得的。第二,白盒测评设计了贴近真实应用场景的复杂任务(例如多轮对话、复杂决策情景),可以考查模型的综合推理链解释能力。这有助于评估模型的可解释性可靠性,从而发现简单准确率指标无法反映的问题。第三,DIKWP测评报告往往配有详细的定性分析和改进建议 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。这些人类专家的评述为模型开发者提供了直接的指导,比如应加强某类训练数据、改进某种推理能力等。总的来说,白盒评估更关注模型内部的认知过程和能力分布,适合用于模型调优阶段的诊断分析。

白盒测评的不足: 由于需要人工设计题目和评分,DIKWP评估的客观一致性效率是个挑战。一方面,人工打分难免带有主观因素,不同评委可能对答案的好坏判断不一,影响测评结果的稳定性 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。虽然DIKWP团队正在探索引入LLM判别器等自动评分技术 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System),但目前白盒评估仍主要依赖专家人工。这使得大规模、快速的模型对比变得困难。另一方面,DIKWP测评题目的设计质量直接决定了评估效果。如果题目过于简单,可能无法充分区分强模型与弱模型;如果题目过于偏门,评测结果又缺乏通用意义。因此,需要持续完善标准题库以覆盖各种高阶能力,并确保题目设置有合理的区分度和关联性。最后,白盒评估目前缺乏像黑盒基准那样广泛认可的分数体系。业界更熟悉的是GPT-4在某Benchmark上多少分,而不熟悉“某模型DIKWP得分95%”意味着什么。这使得白盒结果在传播和接受度上还有待提升 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。

黑盒测评的优势: 黑盒测评采用统一的数据和评分标准,具有很高的客观性和可比性。例如MMLU、HellaSwag等基准已被数十种模型反复测试,其分数具有权威指标意义 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。这对于学界和工业快速判断模型性能非常实用:一个新模型如果在这些Benchmark上超过前代模型X个百分点,就可以认定取得了进展。其次,黑盒评估通常覆盖广泛的任务类型,从知识问答、常识推理到数学和编程,不同指标组合在一起可以描绘模型能力的多维雷达图。从我们的结果看,GPT-4在几乎所有指标上都全面领先,而有的开源模型可能在代码上接近GPT-4但在常识上落后等,这些都可以通过多项基准的分数组合来量化描述。第三,由于黑盒评测无需人工参与(数据集和判分程序是预先给定的),因此非常适合融入持续集成或大规模自动化测试中。模型开发者可以频繁地跑这些基准来跟踪模型训练进展,而无须担心人为误差。这在产业落地时尤为重要:企业可以设定一系列关键KPI基准,只有模型在这些自动测试上达到门槛才允许上线。总之,黑盒评测提供了快速客观的模型性能度量,对于模型排名和迭代具有不可替代的价值。

黑盒测评的不足: 然而,标准基准也存在局限。首先,许多基准任务相对短浅,每道题往往只能考察模型某一方面的能力,无法体现模型在长程推理复杂交互中的表现。例如,一个模型在单轮问答中答题正确率很高,但不一定能在多轮对话中始终有条理地回答。其次,黑盒评测主要关注输出正确性,对模型是否通过类人方式得出答案并不在意。这可能导致模型通过投机取巧达到高分,却未必真正具备相应能力。例如,一些模型可能对训练数据中的模式记忆很好,从而拿高MMLU分数,但面对稍作改编的问题就无法作答,体现出鲁棒性欠佳。这类情况白盒评测或许能发现(比如让模型解释其推理过程,就能鉴别出是死记硬背还是真正推理),但黑盒评测不涉及过程,因而无从察觉。此外,黑盒基准需要不断更新以防止模型专门针对测试集进行优化。一旦模型训练过程中看过测试数据,其分数将失去意义。这也是为什么诸如BIG-Bench等开始提供更大、更难以作弊的测试集合。最后,黑盒评测缺少针对价值观、意图等方面的直接衡量。如果不结合额外的对抗性测试,像ChatGPT那样的模型可能在公开基准上满分,但在隐含偏见、场景适应上仍有问题却未被发现。因此,仅靠黑盒指标来调整模型,容易忽视一些细节缺陷和潜在风险

结合白盒与黑盒的优化策略: 鉴于两种评测各有短长,理想的评估体系应当将两者有机结合。首先,在评估层面,可以对标融合白盒和黑盒结果。一方面,将DIKWP测评和现有权威基准进行对齐标定,例如确保白盒测评中“知识K”维度的任务能够覆盖MMLU涉及的知识领域,并检查二者结果的一致性 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。如果发现某模型白盒测评显示知识薄弱的领域,恰好对应它在MMLU相关类别题目上得分也低,则相互验证了评估结论的可靠性。另一方面,可在白盒报告中引用黑盒分数作为补充说明,让读者将新评估体系的分数映射到熟悉的指标上 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。例如:“模型X在DIKWP-知识维度得分80,相当于MMLU准确率约75%”等描述,将有助于提升白盒评估的解释力和认可度。第二,在方法层面,可以借助黑盒自动化来改进白盒评估流程。比如引入预先训练的判别模型或大模型自身作为评分助手,对白盒题目的答案进行初步打分,然后由专家复核调整 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。这样既减少了人工工作量,又提高了一致性。此外,还可以开发针对DIKWP层次的专门基准:例如构建一个小型的“意图识别”自动测试集,配合人工测评用于量化模型在意图层的改进幅度。第三,在优化模型时,应将两类评测结论结合起来综合考量。白盒测评指出的问题往往比较深入具体(如“缺少跨领域知识融会”“回答缺乏主动性” ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))),开发者可有针对性地采取措施(增加相关训练数据、引入RLHF策略等)。而黑盒评测提供的量化指标可以用来验证这些改进措施的效果是否确实反映在总体能力提升上。如果黑盒指标没有改善,说明模型改动可能只是局部trick,或者白盒指出的问题虽改善但不足以提升整体性能;反之,如果黑盒分数提高而白盒仍暴露相似问题,则提示需要继续迭代改进。通过这种“双管齐下”的评估-反馈循环,模型调优将更有方向和效率。事实上,DIKWP测评报告的结论部分也往往参考了模型在传统指标上的表现,从而提出平衡发展的建议 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号)) ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。例如,从DeepSeek-V3与ChatGPT对比得知DeepSeek欠缺跨领域和自我调节能力,那么黑盒上可以预期其在开放问答或多轮对话的基准会输给ChatGPT;为缩小差距,就需要在训练中加入更多这方面的数据和机制。这样的改进若奏效,将同时反映在新一轮白盒测评和黑盒测试的分数提升上,实现评估与优化的闭环。

对于DeepSeek、OpenAI等具体模型的启示: 结合两类评测,可以提出一些切实可行的优化方向。对于DeepSeek这样的新模型,白盒评估已暴露其在高层认知上的不足 ((PDF) Deepseek‑V3 与 ChatGPT‑o1 大语言模型意识水平 DIKWP 白盒测评对比分析报告(2025年2月6号))。因此,除了在算术、编程等已擅长领域保持领先外,DeepSeek团队应根据DIKWP结果着重补强模型的广博常识和意图理解能力。这包括:扩充训练语料的多样性(涵盖更多人文社科知识),引入类似RLHF的对话反馈训练提高模型对用户隐含意图的把握,以及在模型结构上考虑融合一些长期记忆或规划模块,增强“智慧”与“意图”维度表现。黑盒指标的跟踪可以帮助验证这些努力的成果。例如,若DeepSeek新版本在MMLU的文学类、社会科学类题目上得分提升,且在对抗性对话测试中表现更好了,就说明这些改进确有效果。反过来,对于OpenAI的GPT系列模型,黑盒评测已经证明其综合能力突出,但白盒测评提示即便是GPT-4在某些方面仍有提升空间 ((PDF) 全球首个大语言模型意识水平“识商”白盒DIKWP 测评2025报告(ChatGPT-4o 100题版)分析)。OpenAI可以据此进一步优化模型的自我监督和意图管理机制,使模型在复杂对话场景下更加灵活。例如,强化模型对对话历史中用户情感和需求变化的感知,从而在长对话中保持高质量的回答连贯性和相关性。这种提升可能不会显著改变GPT-4在现有基准上的分数(因为基准多为单轮任务),但会提高实际交互体验。由此可见,结合白盒与黑盒反馈来调优模型,将能从不同侧面推动大模型朝更“聪明”、更“懂人”的方向发展。

结论

随着大语言模型朝着通用人工智能(AGI)的目标不断演进,评估方法也需要与时俱进以全面刻画模型能力。本文对比了DIKWP白盒测评与LLM黑盒测评在大模型评估中的应用表现,分析了各自优缺点,并探索了二者结合的优化思路。DIKWP白盒测评通过分解数据-信息-知识-智慧-意图五个层次,为评估模型的“类人智能”提供了一个全新视角。在需要深入了解模型内部推理、认知水平的场景下(如研究某模型的推理链是否可靠,某对话代理是否真正理解用户意图),白盒测评有着不可替代的价值 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。LLM黑盒测评则以标准化的客观指标,方便地比较模型在各类任务上的性能高低,是当前学术和工业领域衡量模型进步的主流方法 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System)。在注重客观排名和性能调优的场景下(如模型挑战赛、产品化部署的指标要求),黑盒测评仍是首选。两种测评并非对立,而是相辅相成:白盒方法能发现黑盒评分背后模型的认知盲区,黑盒方法能量化白盒改进的实际效果。正如我们的分析所示,将两种方法结合起来进行交叉验证互相补充,能够显著提高评估的全面性和深刻性。未来,大模型测评可能向以下方向发展:其一,标准融合与框架统一,制定行业标准将白盒评估的洞见融入黑盒基准体系,使评估报告既有分数又有“解读”,提高评估结论的可理解性和公信力;其二,多模态测评,随着多模态大模型的兴起,评估将不仅局限于文本,还会扩展到图像、音频等,多模态版的DIKWP体系可以评估模型在跨模态理解和关联上的能力 ((PDF) Optimization Techniques Report of the DIKWP Evaluation System);其三,持续对抗评估,通过不断引入新的挑战任务(例如带有策略诱导的对话、需要常识推理的推断题等)来逼近模型能力边界,防止评估失效。总之,大模型评估将走向一个综合、多维、动态演进的体系。对于学术研究者而言,需要不断提出新的评估指标和方法论来刻画模型的新能力和新问题;对于行业从业者而言,建议在开发和部署大模型时采用“白盒+黑盒”相结合的评估策略,对模型进行全方位体检,以确保其性能可靠、行为可控。只有评估手段紧跟模型能力的扩展,我们才能更好地监测和引导大模型朝着对人类有益的方向发展,为各种应用场景提供可信赖的智能支撑。

转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3429562-1472998.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?