[敬请读者注意] 本人保留本文的全部著作权利。如果哪位读者使用本文所描述内容,请务必如实引用并明白注明本文出处。如果本人发现任何人擅自使用本文任何部分内容而不明白注明出处,恕本人在网上广泛公布侵权者姓名。敬请各位读者注意,谢谢!
通过基于强相关逻辑的正向推理自动生成海量合理经验定理 - 对LLM预训练数据枯竭问题的一个解决方案
程京德
[本文为笔者发表在arXiv上的论文预印本[1]之中文概译]
概要: 最近经常有人说可用于大语言模型预训练的数据已经枯竭了,本文提出了一种解决这个问题的方法:通过基于强相关逻辑的正向推理自动生成海量合理经验定理。实际上,这正是我们解决自动定理发现问题(ATF, Automated Theorem Finding)和自动知识增值问题(AKA, Automated Knowledge Appreciation)的一部分必要工作。
引论
最近经常有人说可用于大语言模型预训练的数据已经枯竭了,于是我们就面临一个问题:如何有效地和高效地得到海量训练数据?[2]
笔者认为,对上述问题的解决方案必须满足下面三个基本要求:
首先,有效性要求:因为用于大型语言模型预训练的数据质量决定了预训练的有效性,所以问题的解决方案必须是有效的,即获得的数据应该是正确的,而不是虚构的(亦即,不包含所谓“幻觉”)。
其次,高效性要求:因为大型语言模型的预训练所需的数据量极其巨大,所以问题的解决方案必须非常高效:能够在短时间内生成数量巨大的数据。
再次,海量性要求:因为大型语言模型的预训练需要极其巨大数量的数据,所以问题的解决方案必须具有海量性意义上的实用性:用户可以生成其所希望的任意多的数据。
本文提出了一种满足上述三个基本要求的解决大语言模型预训练数据枯竭问题的方法:通过基于强相关逻辑的正向推理自动生成海量合理经验定理[1,2]。实际上,这正是我们解决自动定理发现问题(ATF, Automated Theorem Finding)和自动知识增值问题(AKA, Automated Knowledge Appreciation)的一部分必要工作[1]。
基本概念和表记法
因为有大量的逻辑学和数学符号不方便书写表达,请欲了解基础理论细节的读者参阅原著英文论文[1]。
自动定理发现和自动知识增值的逻辑基础
经典数理逻辑及其所有的经典保存扩张都不能作为支撑自动定理发现和自动知识增值的基础逻辑系统。这是因为:经典数理逻辑的逻辑定理中包含有大量的实质蕴涵悖论,即便给定的经验前提和经验公理都是正确的并且不隐含矛盾,基于经典数理逻辑的前推也一定会推出大量的与前提毫不相关的“垃圾定理”;如果没有办法保证经验前提和经验公理不隐含矛盾,那么由于经典数理逻辑的爆发性(从矛盾可以推出任何东西),基于经典数理逻辑的前推就可能会推出无穷无尽的“垃圾”。
传统的弱相关逻辑及其保存扩张也都不适合作为支撑自动定理发现和自动知识增值的基础逻辑系统。这是因为:传统的弱相关逻辑含有大量的相关蕴涵悖论,即便给定的经验前提和经验公理都是正确的并且不隐含矛盾,基于弱相关逻辑的前推也一定会推出大量的与前提“部分地”不相关的“弱相关垃圾定理”。
目前,唯一合适于作为支撑自动定理发现和自动知识增值之基础逻辑系统的就是排除了所有已知蕴涵悖论的强相关逻辑。
通过基于强相关逻辑的正向推理自动生成海量合理经验定理
通过基于强相关逻辑的正向推理自动生成海量合理经验定理的步骤如下:
一,根据目标领域挑选合适的强相关逻辑系统作为基础逻辑系统。
二,根据所需数据规模要求确定生成基础逻辑系统片段的逻辑联结词的允许嵌套度。
三,使用自动前推机(比如笔者研究室开发的FreeEnCal)生成基础逻辑系统片段。
四,根据所需数据规模要求确定生成经验定理的逻辑联结词的允许嵌套度。
五,准备经验事实和经验公理作为前提。
六,从给定前提出发,基于第三步得到的基础逻辑系统片段,使用自动前推机(比如笔者研究室开发的FreeEnCal)生成海量经验定理。
因为上述第五步骤需要将通常用自然语言表达的数据变换为逻辑式,并且,生成的经验定理也都是逻辑式,用来作为大语言模型的预训练语料数据也需要先变换为自然语言表达,所以,自然语言<=>逻辑式双方向自动变换工具也是需要的。
结语
只要作为前提的经验事实和经验公理原始语料数据是纯净的,那么以上述方式获得的新经验定理作为语料数据必定也是纯净的;如果原始语料数据并不纯净而是在某种程度上被污染了的,那么以上述方式获得的新语料数据的污染程度,不会超出原始语料数据,亦即,上述方式是“保洁”的,既不会澄清原始语料数据中的污染,亦不会在新生成的语料数据中增生新的污染。这种“保洁性”的关键在于选用了“正确的基础逻辑系统”,不会在前推时产生“垃圾”[1,2]。目前,唯一的“正确的基础逻辑系统”就是强相关逻辑。
参考文献
[1] J. Cheng, “Automated Generation of Massive Reasonable Empirical Theorems by Forward Reasoning Based on Strong Relevant Logics - A Solution to the Problem of LLM Pre-training Data Exhaustion,” arXiv.org, https://arxiv.org/abs/2412.12408 , December 18, 2024.
[2] 程京德,“如何高效地获得大语言模型的海量训练数据?” 微信公众号“数理逻辑与哲学逻辑”,科学网博客,2024年11月18日。
微信公众号“数理逻辑与哲学逻辑”
转载本文请联系原作者获取授权,同时请注明本文来自程京德科学网博客。
链接地址:https://wap.sciencenet.cn/blog-2371919-1464633.html?mobile=1
收藏