科学网

 找回密码
  注册
自监督学习的两大模型,为什么GPT跑赢了BERT成为王者?
李维 2025-8-23 14:02
两者的零件很像,但工作习惯完全不同:,像老师先通读整篇再下判断;它产出的主要是“看懂后的内部表示”。要把“看懂”变成,还得在它上面(比如分类器、序列标注器、指针解码器等)。所以做情感分类、实体识别、检索匹配这类分析活儿,它是个扎实的底座,但每个任务都需要“再装一个尾巴”。,像台上即兴演说:听到哪儿、 ...
个人分类: AI 浪潮|2374 次阅读|没有评论
Is Thinking Equal to Language?
李维 2025-7-25 12:52
Some philosophers have argued that thinking and language are two sides of the same coin—thinking as inner language, and language as externalized thought. But this perspective doesn’t quite hold up to scrutiny. Fmany The broader consensus is this: language is the expressive form of thought. The ...
个人分类: AI 浪潮|2647 次阅读|没有评论
与尼克等老友唠大模型压缩理论
李维 2025-7-8 14:02
1. 为什么中心节点看起来最“省比特” 在语义压缩框架里,发送端和接收端都共享一个超大的知识库(也就是大语言模型GPT本身)。只要两边都装好了这台“超级预言机”,你就只需要传那些 模型无法直接预测 的信息——往往是微小的差异。 模型分发成本 :把模型先安置到两端,是一次性“沉没成本”。 消息传输 ...
个人分类: AI 浪潮|2998 次阅读|没有评论
GPT无损压缩小问答(2):为什么说GPT是无损压缩?
李维 2025-7-7 03:14
GPT生成还原的不是训练数据的原文,为什么说“GPT压缩是无损压缩”? 常听到这句话,但其实这句话有歧义,不准确。GPT赋能无损压缩到对象不是训练数据,对于训练数据它的压缩毫无疑问是有损的,否则就不会有幻觉现象的存在。说GPT压缩是无损压缩的,指的是利用GPT这个庞大的知识库,用无损算法(算术编码算法)来压缩(编码 ...
个人分类: AI 浪潮|2590 次阅读|没有评论
Yann LeCun 所鼓吹的「世界模型」与GPT+Diffusion有什么不同
李维 2025-6-22 02:08
Yann LeCun 所鼓吹的「世界模型」(World Model)是一種旨在模仿人類和動物學習世界運作方式的新興 AI 概念 。他認為,這條路徑不同於主流的 GPT/Diffusion 模型所依賴的大數據、大參數和自迴歸 Transformer 架構,是實現通用人工智慧(AGI)的關鍵 。 以下將從實際能力、優缺點等方面,對最新發布的 LeCun 世界模型( ...
个人分类: AI 浪潮|5265 次阅读|没有评论
像素值是“连续变量”,还是工程上的伪装?
李维 2025-6-22 02:01
“视觉是连续空间的模拟信号,每个像素点就是一个连续变量。”这是很多计算机视觉教材和模型论文中默认的假设。听起来合理,似乎也和物理世界接轨。但只要稍加推敲,就会暴露出它并非科学结论,而是工程手段的一种近似表达。 我们必须首先区分几个层面: 一、在物理上,光照和颜色确实是连续信号 自然界的光波、亮度和 ...
个人分类: AI 浪潮|1911 次阅读|没有评论
EMPO强化学习项目复现Claude4学习总结
李维 2025-5-27 16:44
跟 Claude 4 学 复现 EMPO 无监督强化学习笔记 📋 今日学习成果回顾🛠️ 技术栈掌握 云计算平台 : Google Cloud Platform 完整使用流程 编程环境 : Python 虚拟环境、依赖管理、包安装 深度学习框架 : PyTorch, Transformers, Accelerate 配置管理 : YAML 配置文件格式和应用 ...
个人分类: 其他杂碎|2707 次阅读|没有评论
MeanFlow: AI图像生成的降维打击
李维 2025-5-22 19:15
何恺明团队最新力作,MeanFlow无需预训练、无需蒸馏,仅需 一次函数评估 (1-NFE) 即可实现SOTA性能,为高效高质量图像生成开辟新道路。 MeanFlow的核心思想是引入“平均速度场”来直接建模数据点和噪声点之间的转换路径,摆脱了传统扩散模型和流匹配方法对多步迭代的依赖。这项研究在ImageNet 256x256数据集上取得 ...
个人分类: AI 浪潮|3898 次阅读|没有评论
Review of Autoregressive and Diffusion Models for Video Gene
李维 2025-5-3 04:02
Abstract The past three years have marked an inflection point for video generation research. Two modelling families dominate current progress— Autoregressive (AR) sequence models and Diffusion Models (DMs) —while a third, increasingly influential branch explores their ...
个人分类: AI 浪潮|2601 次阅读|没有评论
Unveiling the Two "Superpowers" Behind AI Video Creation
李维 2025-5-2 12:49
You've probably seen them flooding your social media feeds lately – those jaw-dropping videos created entirely by Artificial Intelligence (AI). Whether it's a stunningly realistic snowy Tokyo street scene 1 or the imaginative life story of a cyberpunk robot 1 ...
个人分类: AI 浪潮|2846 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-2 11:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部