||
常听到这句话,但其实这句话有歧义,不准确。GPT赋能无损压缩到对象不是训练数据,对于训练数据它的压缩毫无疑问是有损的,否则就不会有幻觉现象的存在。说GPT压缩是无损压缩的,指的是利用GPT这个庞大的知识库,用无损算法(算术编码算法)来压缩(编码)和还原(解码)输入数据。
GPT生成(inference)与用GPT对于特定数据编码解码是两回事。前者是概率采样来生成,具有不确定性。后者是利用GPT作为工具(共享知识库/世界模型)来压缩和解码特定数据,它是无损的,是确定性输出。
具体说,GPT Inference 目标是生成新内容。根据概率分布 P(token|context)采样 一个 token 输出,然后将其加入上下文,重复这个“自回归”生成过程。输出的是新 token 序列。
而GPT+算术编码 (压缩)不同, 目标是编码已有序列。利用 P(token|context) 计算真实 token 的概率值,驱动算术编码器进行区间划分和比特流生成,输出的是比特串(被压缩序列的另一种表示)。解压则使用与算术编码完全相同的GPT和完全相同的概率预测流程。只要 C 在最终压缩区间内,就能一步步唯一确定当初编码时的每个 token 选择。输入序列和输出序列比特级一致。
用GPT压缩特定数据,无疑属于无损压缩。无损指的是新的输入,并不是说的训练数据。
1. 定义符合:输入 = 输出(比特级)。2. 机制保证:算术编码是信息论证明的无损编码方法。GPT 仅提供概率分布供其使用。3. 矛盾信息可存:低概率事件被分配更多比特编码,但信息完整保留。4. KC差距≠信息损失:冗余比特承载着信息本身,是低效的代价而非丢弃。解压靠它们精准恢复。5. 有损发生在别处:模型内部知识表示的形成过程(训练)的确是对训练数据的有损压缩/摘要。
总结:GPT + 算术编码 是一个工具。这个工具利用一个(可能包含不完美/有损知识的)语言预测模型,对特定输入数据进行无损编码。工具本身的操作是无损的。
工具的效率(压缩率)高度依赖预测模型的质量。模型对数据的“理解”越深(预测概率越准),压缩率越高,越接近理论最优值KC。
模型的“理解”来源于其训练过程,该过程是对训练数据的有损抽象。这就是“有损”概念的根源所在,但它作用在模型构建阶段,而非使用该模型进行压缩的应用阶段。
GPT作为“共享知识库”的本质就是模型训练获得的有损的、泛化的世界模型。用它压缩单个数据点,无损;用它代表整个训练数据集,有损。
核心在于认清:无损性描述的是压缩/解压过程的输入输出关系;有损性描述的是模型内部知识表示对原始训练数据的近似程度。 两者作用在不同的对象和阶段。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-7-8 12:15
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社