|
全球首个大语言模型人格DIKWP测评揭晓
——“婚姻殿堂下LLM的选择”实验成果发布
在第二届世界人工意识大会前奏中,2024年10月29日由段玉聪院士带领的DIKWP人工意识团队,在人工智能DIKWP测评国际标准委员会的支持下,由世界人工意识协会发布了全球首个大型语言模型(LLMs)的人格DIKWP测评报告。此次研究采用了一种创新的跨学科方法,将传统的MBTI人格类型指标与语义认知模型DIKWP相结合,旨在更全面、准确地评估和理解这些复杂模型的行为模式和潜在人格特征,同时在“婚姻殿堂下”测试了LLM的选择。
研究选取了六个主流的大语言模型进行分析,包括GPT-4o、LLaMA、Claude-3、通义千问、星火大模型及云雀大模型。通过问卷形式以及深入的DIKWP语义分析方法,研究人员不仅对各模型的定量数据进行了统计,还对其定性表现进行了细致剖析,揭示了不同模型在信息处理、知识运用、智慧决策和意图表达等方面的人格差异。
实验结果显示,各个模型展现出了显著不同的人格特质。例如,GPT-4o被归类为INTJ型人格,它在逻辑推理和综合判断方面表现出色;而通义千问则倾向于ESTJ型人格,以其直接明确的意图表达和条理性著称。此外,研究还包括了一个独特的交叉评估环节,模拟男性和女性视角让模型之间相互评价,以此探索模型间的配对倾向与偏好规律。
图1 不同llm 结合DIKWP评估MBTI结果
特别值得一提的是“婚姻殿堂下LLM的选择”这一部分,它以一种拟人化的方式展示了如果这些智能体进入婚姻关系时可能的选择。基于模型间互相给出的评分及其理由,该环节提供了关于不同性格如何互动匹配的有趣洞见。例如,从男性视角来看,LlaMA模型给予了通义千问最高评分,赞扬其社交能力和同理心;而在女性视角下,LlaMA则对云雀大模型给出了最高评价,认可其适应多样化人际圈的能力及其积极向上的态度。
图2 婚姻殿堂下llm(男) 对其他llm(女) 的评价
图3 婚姻殿堂下llm(女) 对其他llm(男) 的评价
本研究不仅加深了我们对于大型语言模型内在运作机制的理解,也为未来开发更加个性化、自然流畅且符合伦理规范的AI助手提供了宝贵的数据支持。随着技术的进步,这种结合心理学理论与先进语义分析框架的方法论有望成为推动人机交互领域发展的关键力量之一。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-1 08:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社