《镜子大全》《朝华午拾》

李维
访问数:19541176
教育情况:Simon Fraser University,博士
研究领域:信息科学
加为好友
发送消息

全部博文

GPT作为序列数据的无损压缩器

预测下一词的自回归大模型GPT早已风靡全球。压缩即智能的说法已经广为人知,但关于其无损压缩的能力貌似一直有争议。GPT压缩到底是无损还是有损呢? 这是一个非常值得打破沙锅问到底的问题,它正好切入了LLM压缩最核心、也最巧妙的部分。我们来把这个过程彻底拆解一下,让它变得清晰易懂。 一个直观的比喻:在无限的图书 ...
2025-7-8 14:04

与尼克等老友唠大模型压缩理论

1. 为什么中心节点看起来最“省比特” 在语义压缩框架里,发送端和接收端都共享一个超大的知识库(也就是大语言模型GPT本身)。只要两边都装好了这台“超级预言机”,你就只需要传那些 模型无法直接预测 的信息——往往是微小的差异。 模型分发成本 :把模型先安置到两端,是一次性“沉没成本”。 消息传输 ...
2025-7-8 14:02

破除“无损压缩即智能”的迷思

立委按:这两天跟大模型压缩理论干上了,发现,这里面目前在市面上仍然充满了迷思和误解。要命的是,压缩问题是大模型革命的首要问题,反映了大模型背后的奥秘和上帝之光。感觉到了正本清源的时候。 我以为,当代生成式AI及其大模型的大爆发,其中有两个相互关联的核心问题,最值得花时间搞明白,否则就好比允许自己生活 ...
2025-7-8 14:00

Demystifying the misconception of "Lossless Compression as I

Demystifying the misconception of Lossless Compression as Intelligence DebatesonLLMcompressiontheoryrevealpersistentmisconceptions.Crucially,compressionliesattheheartoftheLLMrevolution—illum ...
2025-7-8 13:58

要区分GPT训练中的压缩,与拿GPT当压缩器工具

GPT训练中的压缩,与拿GPT当压缩器工具不是一回事,二者有很大的关联,但不是同一个层面的问题。GPT是无损还是有损压缩的混淆与争论,就是搞错了这个层面和视角。 理论基础 (Solomonoff-Kolmogorov-Chaitin / Kolmogorov Complexity): 任何数据的“最本质”信息量是其 柯氏复杂性 (KC) —— 计算理论中定 ...
2025-7-7 03:21

信息论科普:GPT对给定序列无损压缩的最终区间

可以用GPT无损压缩的算术编码作为例示 一、最终区间的本质:概率宇宙中的精确坐标 想象一个包含所有可能文本序列的宇宙(概率空间): 词汇表 概率分布 初始上下文 P(猫)=0.5, P(狗)=0.3, P(鱼)=0.2 编码/压缩过程 : 编码猫: →独占宇宙坐标[0,0.14) 区间 ...
2025-7-7 03:19

信息论科普:香农极限(Shannon Limit)

香农极限(Shannon Limit)是信息论中最深刻、最优雅的概念之一,由“信息论之父”克劳德·香农(Claude Shannon)在1948年奠基性论文《通信的数学理论》中提出。它不仅定义了通信的终极边界,更揭示了信息、噪声与可靠性的本质关系。以下从四个维度解析其内涵: 一、核心思想:信息传输的“光速壁垒” 香农极限 ...
2025-7-7 03:17

GPT无损压缩小问答(3):算术编码

GPT+算术编码是对数据的无损压缩。什么是算术编码?它是怎么工作的? 算术编码:GPT压缩的“比特转换器” 算术编码 (Arithmetic Coding) 是经典的无损压缩算法。GPT作为“世界模型”为这个算法提供了前所未有的、超精准的语言数据的“概率地图”。 核心作用:把概率分布变成最短的比特流 GPT内部的输出是 ...
2025-7-7 03:16

GPT无损压缩小问答(2):为什么说GPT是无损压缩?

GPT生成还原的不是训练数据的原文,为什么说“GPT压缩是无损压缩”? 常听到这句话,但其实这句话有歧义,不准确。GPT赋能无损压缩到对象不是训练数据,对于训练数据它的压缩毫无疑问是有损的,否则就不会有幻觉现象的存在。说GPT压缩是无损压缩的,指的是利用GPT这个庞大的知识库,用无损算法(算术编码算法)来压缩(编码 ...
2025-7-7 03:14

GPT无损压缩小问答(1): 高压缩率导致系统脆弱

压缩率不够高不是更容易还原原文吗?从无损还原角度,我们其实不想模型压缩率“过高”。 这个问题非常犀利,直接点中了无损压缩理论中一个反直觉的关键点,质疑的是压缩效率与还原可靠性的关系——这恰恰是信息论最精妙的部分。 你可能正在脑补这样的场景:如果压缩率太高,就像把文件压得过于紧实,解压时反而容易出错。 ...
2025-7-7 03:13
全部博文
立委科普
镜子大全
朝华午拾
夫子遗墨
叔爷诗词
岁月如歌
立委推荐
留学资讯
立委随笔
风雨春秋
老师文集
江东文集
文艺点评
其他杂碎
师姐专辑
世运资料
成长花絮
立委其人
江城记事
神秘花园
笔细文集
立委录像
镜子医疗卫生专栏
社媒挖掘
Little Stories of Tian Tian
旧文翻新
AI 浪潮
李名杰医学论文集(英文)
李名杰医学论文集