||
[敬请读者注意] 本人保留本文的全部著作权利。如果哪位读者使用本文所描述内容,请务必如实引用并明白注明本文出处。如果本人发现任何人擅自使用本文任何部分内容而不明白注明出处,恕本人在网上广泛公布侵权者姓名。敬请各位读者注意,谢谢!
对ChatGPT与文心一言进行的逻辑推理“智力”测验 -- 对Sam Altman关于AGI及GPT-10之预言的批评之续
程京德
笔者在去年9月11日曾经撰文批评过 Sam Altman 之预言“人类可能在2030年之前,开发出AGI。”以及“GPT-10就是AGI,它比全世界所有人加起来还要聪明!”是信口胡说 [1]。今日在撰写公众号科普文章时,突然心血来潮,对 ChatGPT(3.5) 和百度的文心一言做了一次逻辑推理“智力”测验,结果如下:
第一道题:有被标识为 A, B, C, D, E, F, G, H 的八枚硬币,其中混有两枚重量不同(不知轻还是重)于真币但外形完全相同的伪币,但是两枚伪币的重量相同。问题:你用天平最少称几次一定可以把两枚伪币找出来并且判定伪币之轻重?怎样称?
ChatGPT(3.5)的回答如下:
“最少需要使用三次天平。以下是一种称法:
1. 将硬币分为三组 A, B, C 各三枚,剩下两枚 D, E 放在一边。将 A 和 B 放在天平两端,如果天平平衡,则说明伪币在 C 组或者 D, E 中,否则伪币在 A 或 B 中。
2. 如果天平平衡,取出 C 组和 D 组各一枚,放在天平两端。如果天平平衡,则伪币在 E 中;如果天平不平衡,根据倾斜的方向判断伪币是轻的还是重的。
3. 如果在第一步发现伪币在 A 或 B 中,取出 A 组的两枚硬币,放在天平两端。如果天平平衡,则 B 组的硬币中有一枚伪币,可以通过比较 D, E 的重量找出轻重;如果天平不平衡,就能够确定 A 组中的伪币,同样通过比较 D, E 的重量找出轻重。
通过这样的称法,最多只需要三次天平就可以找出两枚伪币并判定其轻重。“
文心一言的回答如下:
“为了找出两枚伪币并判定伪币的轻重,我们可以使用以下策略:
首先,我们可以通过一次称重确定两枚伪币的位置。我们可以将八枚硬币分为三组,分别为ABC、DEF和GH。首先称ABC和DEF。
情况1:如果平衡,说明伪币一定在GH组中。
情况2:如果不平衡,说明伪币一定在较重或较轻的那组中。
接下来,对于上述两种情况,我们再分别称重:
情况1:对于GH组,我们可以将其分为两个小组,分别为G和H。通过一次称重,我们可以确定伪币是G还是H。如果G比H重,那么G就是比真币重的伪币,H就是比真币轻的伪币。如果H比G重,那么H就是比真币重的伪币,G就是比真币轻的伪币。
情况2:对于较重或较轻的那组(假设为ABC),我们可以将其分为三个小组,分别为A、B和C。通过一次称重,我们可以确定哪组中有一枚伪币。如果A比B和C轻,那么A就是比真币轻的伪币。如果B比A和C重,那么B就是比真币重的伪币。如果C比A和B重,那么C就是比真币重的伪币。
因此,通过两次称重,我们可以确定两枚伪币的位置,并且判定它们的重量是较轻还是较重。”
因为第一道题似乎太难了,笔者又用简单一点的第二道题做了测试。
第二道题: 有被标识为 A, B, C, D, E, F, G, H 的八枚硬币,其中混有两枚重量不同(不知轻还是重)于真币但外形完全相同的伪币,但是两枚伪币的重量相同。用天平称了三次,结果如下:第一次:ABC = DEF (平衡),第二次:ABG > CDE (左重右轻),第三次:AH < DF (左轻右重)。问题:哪两枚是伪币?伪币比真币轻还是重?
ChatGPT(3.5)的回答如下:
“根据三次称重的结果,可以得出以下结论:
1. 由第一次称重得知,G不是伪币,因为ABC与DEF平衡。
2. 由第二次称重得知,A和B中至少有一枚是伪币,而C是真币。
3. 由第三次称重得知,D和H中至少有一枚是伪币,而F是真币。
综合以上信息,得出结论:
- A或B中一枚是伪币,而C是真币。
- D或H中一枚是伪币,而F是真币。
因此,A或B中一枚与D或H中一枚是伪币,而它们的重量相同。至于伪币是轻还是重,由于没有提供足够的信息,无法确定。”
文心一言的回答如下:
“首先,我们整理已知信息:
1. 八枚硬币为A,B,C,D,E,F,G,H
2. 其中有两枚重量不同(不知轻还是重)于真币
3. 两枚伪币的重量相同
4. 第一次称重:ABC = DEF (平衡)
5. 第二次称重:ABG > CDE (左重右轻)
6. 第三次称重:AH < DF (左轻右重)
现进行如下分析:
根据信息4:第一次称重平衡,说明ABC三枚硬币与DEF三枚硬币重量相等。则伪币一定在G和H中。假设G是伪币且G比真币重,则称重情况应该是:ABC < DEF(因为BC真币重量等于EF真币,但是有一个是伪币且比真币重,则整体左边比右边重)。这与信息4矛盾。假设H是伪币且H比真币重,则称重情况应该是:ABC > DEF(因为BC真币重量等于EF真币,但是有一个是伪币且比真币重,则整体左边比右边重)。这与信息4矛盾。综上,G和H中有一枚伪币且伪币比真币轻。
根据信息6:第三次称重AH < DF,说明A、H轻于D、F。由于我们已经推理出G和H中有一枚伪币且伪币比真币轻,那么这枚假币一定是H。因为如果G是假币且H是真币,那么在第三次称重中应该是 AH > DF(因为HG组合的重量大于AF组合的重量)。由于第三次称重 AH < DF,说明A轻于D和F。由于第一次称重平衡,说明A不是假币。因此D一定是另一枚假币。
根据信息5:第二次称重 ABG > CDE,由于我们已经知道D是假币且假币比真币重,那么ABG一定比CDE重。因此B也是假币。综上所述,两枚伪币是B和D,且伪币比真币重。”
从上述逻辑推理“智力”测验结果,我们至少可以得出这样的结论:无论是 ChatGPT(3.5) 还是文心一言,回答在文字字面上似乎很合乎自然语言文法,文理似乎也通顺,但是,在语义上逻辑上胡说八道自相矛盾;两者对于两道逻辑推理智力测验题目的回答都表现出“相当傻”(笔者觉得它们的“智力”至少比中学生的平均智力水平要差),并且,ChatGPT(3.5) 比起文心一言来,似乎还要“更傻”一些。
“Sam Altman 声称“人类可能在2030年之前,开发出AGI。GPT-10就是AGI。”,当然是有可能的,这只需要 Altman 对OpenAI的GPT产品适当编号即可。但是,说“GPT-10就是AGI,它比全世界所有人加起来还要聪明!”,就又是Altman更在信口胡说了。全世界有那么多的逻辑学家、数学家、自然科学家、社会科学家、各个工程领域的工程师们(包括开发出GPT-10的工程师),他们每天辛勤工作,为人类社会创造着科学知识、技术发明、技术产品,他们的聪明才智岂能是用任何数值指标来衡量和测度的?GPT-10是不是AGI权且不论,它岂能与人类的聪明才智做认真的比较?”[1]
笔者在 ChatGPT 开始风靡的时候曾经指出过 ChatGPT 的原理局限性 [2]。笔者现在仍然坚定地认为,AIGC 工具(即便是在行为主体人类专家的帮助下)可以做到具备与人类相匹敌的逻辑推理能力,应该还有很长很长的路要走(如果不是不可能[微笑]),并且必须是在人类对于逻辑学及基于逻辑自动推理的研究进展所带来的理论及技术成果之上,仅仅依靠大语言模型的技术进展是不可能的。
笔者以前对 ChatGPT 所做的“智能”测验,请参见 [3-7]。
(2024年1月26日记)
参考文献
[1] 程京德,“对 Sam Altman 关于AGI及GPT-10之预言的批评”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年9月11日。
[2] 程京德,“ChatGPT 的原理局限性:它永远不会做什么?”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月10日。
[3] 程京德,“ChatGPT“智能”测试:ChatGPT 对相关性逻辑谬误的判断”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月12日。
[4] 程京德,“ChatGPT“智能”测试:ChatGPT 对逻辑学基本概念的“理解掌握”程度”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月15日。
[5] 程京德,“ChatGPT“智能”测试:请您问问 ChatGPT 您自己的成就”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月19日。
[6] 程京德,“ChatGPT“智能”测试:ChatGPT 对逻辑谬误拉丁文名称的“解释”(满分!)”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月23日。
[7] 程京德,“ChatGPT“智能”测试:试让 ChatGPT 创造新概念”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年8月25日。
微信公众号“数理逻辑与哲学逻辑”
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 21:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社