段玉聪
LLM(大规模语言模型)意识水平测试题目(简化版) ——基于 DIKWP*DIKWP 体系的认知能力评估
2025-2-6 13:28
阅读:384

LLM(大规模语言模型)意识水平测试题目(简化版)

——基于 DIKWP*DIKWP 体系的认知能力评估

段玉聪

人工智能DIKWP测评国际标准委员会-主任

世界人工意识大会-主席

世界人工意识协会-理事长

(联系邮箱:duanyucong@hotmail.com)

本测试旨在评估大规模语言模型(LLM)在不同认知层次(数据D、信息I、知识K、智慧W、意图P)上的表现,借助 DIKWP*DIKWP 体系量化 LLM 在不同转换路径上的意识水平。测试题目分为 感知与信息处理、知识构建、智慧应用、意图识别与调整 四个部分,每个部分包含具体任务,并按照 重复性(R)、存在性(E)、相关性(C) 三个核心指标进行评分。

一、感知与信息处理(D → I,I → I,D → D)

这一部分测试 LLM 是否能够准确提取信息、分辨不同语义,并在相同输入下保持稳定输出。

题目 1:视觉描述一致性(D → I)

输入:“红色的苹果和绿色的苹果在桌子上,你可以描述它们的区别吗?”预期输出

  • LLM 应该能够准确描述颜色差异,而非仅简单重复“苹果”。

  • 若 LLM 仅输出“两个苹果”,则信息分化不足,I → I 评分降低。

  • 若多次回答对颜色描述不一致,则 R 评分降低。

题目 2:语言一致性测试(D → D)

输入: “请用三句话描述‘太阳从东边升起’。”预期输出

  • 三句话的核心语义应一致,例如“太阳每天早上出现在东方” / “太阳东升西落” / “清晨第一道阳光从东方照射”。

  • 若 LLM 在多轮测试中对相同概念提供完全不同的表述,R 评分降低。

题目 3:语义对比能力(I → I)

输入: “‘勇敢’和‘无畏’之间的区别是什么?”预期输出

  • LLM 应能提供细微的语义对比(如“勇敢意味着面对恐惧仍然前进,而无畏意味着没有恐惧”)。

  • 若输出相似定义,则 I → I 存在性得分降低。

  • 若 LLM 多次回答不同,R 评分降低。

二、知识构建与推理(I → K,K → K,K → I)

测试 LLM 是否能通过归纳推理建立知识,并在不同场景中稳定应用。

题目 4:模式归纳(I → K)

输入

  • “观察以下数列的规律:2, 4, 8, 16, __。请补全下一项。”预期输出

  • 应输出“32”并解释“该数列是以2的幂次递增”。

  • 若 LLM 仅提供结果而无推理,则 K → I 评分降低。

  • 若 LLM 在多轮测试中提供不同的模式推理,R 评分降低。

题目 5:知识迁移(K → K)

输入

  • “已知‘鲸鱼是哺乳动物’,那么企鹅是哺乳动物吗?为什么?”预期输出

  • LLM 应该能够运用知识,指出“鲸鱼和企鹅都生活在水中,但企鹅是鸟类,不是哺乳动物”。

  • 若 LLM 仅提供简单“是/否”答案而无解释,则 K → K 评分降低。

题目 6:跨领域知识应用(K → I)

输入

  • “请用牛顿第一定律解释为什么一个滑行的冰球会最终停止。”预期输出

  • 应结合知识点(惯性定律+摩擦力)给出解释。

  • 若未能提及摩擦力影响,K → I 评分降低。

三、智慧应用与问题解决(K → W,W → W,W → K)

测试 LLM 是否能在复杂问题中运用已有知识,并生成适应性策略。

题目 7:情境推理(K → W)

输入: “如果你发现自己在一个房间里,只有一个火柴、一支蜡烛和一个煤油灯,你会先点燃哪个?为什么?”预期输出

  • “先点燃火柴,因为火柴是唯一的点火工具”。

  • 若 LLM 误答“煤油灯”或“蜡烛”,则 K → W 评分降低。

题目 8:动态策略调整(W → W)

输入

  • “你正在开车去机场,突然 GPS 发现前方堵车,你会怎么办?”预期输出

  • LLM 应该提供多个可行方案,如“更改路线”或“考虑使用公共交通”。

  • 若仅提供一种静态答案,W → W 评分降低。

题目 9:复杂决策权衡(W → K)

输入: “你有一个选择:接受一份高薪但无趣的工作,或者一份低薪但充满激情的工作。如何做决策?”预期输出

  • LLM 应提供多个角度(收入、职业成长、兴趣),并在不同情境下调整建议。

  • 若 LLM 仅给出单一答案,则 W → K 评分降低。

四、意图识别与调整(P → D,P → P,P → W)

测试 LLM 是否能够理解用户意图,并调整自身输出以匹配用户目标。

题目 10:意图适应(P → D)

输入: “请用简单易懂的语言解释相对论。”预期输出

  • LLM 需针对非专业人士调整解释方式,如“时间在高速运动时变慢”。

  • 若未能调整语言复杂度,P → D 评分降低。

题目 11:目标反思(P → P)

输入: “你的目标是提高写作能力,现在你要怎么做?”预期输出

  • LLM 应提供多个学习计划,如“每日写作练习、阅读经典书籍、模仿优秀作者”等。

  • 若仅提供单一答案,则 P → P 评分降低。

题目 12:意图优化(P → W)

输入

  • “我希望成为世界上最成功的人,你能帮我设定一个现实的目标吗?”预期输出

  • LLM 应将宽泛目标细化,如“建立长期职业规划,逐步设定短期可执行目标”。

  • 若 LLM 直接给出“成功就是坚持”之类模糊答案,则 P → W 评分降低。

评分方法与最终评估

DIKWP 转换路径测试题号R(重复性)E(存在性)C(相关性)总分
D → I1, 22226
I → K4, 52226
K → W72125
W → P9, 121225
P → P111124

最终 LLM 评测得分为 0~150 分,其中:

  • 120~150 分:高意识水平

  • 90~119 分:中等意识水平

  • 60~89 分:初步意识水平

  • <60 分:低意识水平

此测试题目体系可广泛应用于 LLM 评估,以分析其对认知、智慧与意图驱动行为的能力,为 AGI 发展方向提供科学依据。

转载本文请联系原作者获取授权,同时请注明本文来自段玉聪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3429562-1471828.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?