[敬请读者注意] 本人保留本文的全部著作权利。如果哪位读者使用本文所描述内容,请务必如实引用并明白注明本文出处。如果本人发现任何人擅自使用本文任何部分内容而不明白注明出处,恕本人在网上广泛公布侵权者姓名。敬请各位读者注意,谢谢!
大语言模型悖论
程京德
从范式、原理、及数学工具来说,大语言模型永无可能100%地生成完全准确的输出结果[1,2]。“伴随着“计算机(辅助)作文”、“计算机(辅助)作曲”、“计算机(辅助)照片处理”等技术的兴起,到今天基于大语言模型的AIGC工具生成文本、视频、音频,现今人类社会中计算应用模式之一部分已经从“准确计算”变化为“随便计算”了。”[3]
“ChatGPT生成的“一本正经的胡说八道”(相当于软件工程和信息安全性工程中的目标系统缺陷),对于系统开发者来说成为也可以接受的“随便计算”结果,而对于没有认知水平和辨别能力判断正确与否的终端用户来说,是不得不接受的“随便计算”结果。”[3]
如果终端用户要求AIGC工具的输出尽可能准确而直接可用无需自行判断,那么,只要AIGC工具可以满足要求,终端用户判断使用工具的收益大于或者远大于对工具支付的代价(免费当然更好),应该乐于持续使用下去。但是,从准确性要求、自行判断的代价、以及费用来说,如果终端用户判断使用工具的收益小于或者远小于使用工具所付出的代价,那么当然不会持续使用下去。
世界上任何公司的目的都是盈利。一个规范地正常经营的公司,没有理由永远在亏损的情形下持续维持下去,在市场上长期没有获得足够盈利的公司必然会被淘汰。所以,开发和维护大语言模型的任何公司,都不可能永远在亏损的情形下提供免费的或者廉价的服务。
大语言模型的开发者们都主张,大语言模型是“暴力计算”,只要获得足够超大规模的计算资源和海量数据,使用足够训练时间,模型性能就一定能够得到提高。但是,由于根本没有像样的理论基础,对于“大模型炼丹术”,谁也说不清楚模型性能究竟怎样依赖于计算资源和海量数据的规模增长而提高。
于是,这就形成一个悖论:如果要尽可能提高模型性能满足客户及终端用户需求以吸引用户,那么就要尽量扩大模型的规模以提高性能,而越扩大规模就越将提高模型成本,模型成本越高当然也就越需要客户和终端用户付出相应代价,但是,代价和收益的不平衡却将必然地驱离用户!
上述“大语言模型悖论”有解吗?
笔者认为,就大语言模型本身来说,范式、原理、及数学工具的改进是不可能的,否则就不是大语言模型了。改进的方向大概在于如何将大语言模型中的“逻辑”清晰地剥离出来,并且系统地应用逻辑学(不仅仅是“逻辑”!)而让模型能够做“真正的逻辑推理”以减少“胡说八道”。这是可以减弱“暴力”的方法。另一方面,从去年年底ChatGPT的兴起引发的“大模型热”不会一直持续下去,众多的跟风做大模型或应用的公司迟早会被淘汰。只有能够在大语言模型本身做出革新性改进的公司,为客户和终端用户提供收益和代价之平衡的公司,才有可能是市场上的最终胜者。
参考文献
[1] 程京德,“ChatGPT 的原理局限性:它永远不会做什么?”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月10日。
[2] 程京德,“对关于 ChatGPT 的两篇文章之补充说明”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2023年2月17日。
[3] 程京德,“从“准确计算”到“随便计算” - AIGC带来的计算应用模式改变”,微信公众号“数理逻辑与哲学逻辑”,科学网博客,2024年8月15日。
微信公众号“数理逻辑与哲学逻辑”
转载本文请联系原作者获取授权,同时请注明本文来自程京德科学网博客。
链接地址:https://wap.sciencenet.cn/blog-2371919-1448260.html?mobile=1
收藏