科学网—liwei999的博文

李维 2025-9-13 01:37

大语言模型（LLM）延展至音频，一路狂飙，LLM-native 的语音技术大约在半年多前开始成熟，全行业都起来了。技术成熟的重要标志是两个重要的 featrures：超写实与全双工。像LLM类似的音频token化，不只造就了模型音乐家（代表产品Suno，另文介绍），更重要的是直接催生了两件真正改变语言交互的事：超写实的语音合成，和 ...

个人分类: AI 浪潮|9820 次阅读|没有评论

说说神经 codec，大模型时代的音频技术要点

李维 2025-9-12 17:25

“Codec”是 coder（编码）和 decoder（解码）的合体，指一整套“压缩—还原”的机器：编码那端把声音挤压成更省空间的表示，解码那端再把它尽可能还原出来。在大模型时代，音频和文本一样，常被切成片段并编码成离散 token 的序列。用来量化的“音频词典”叫码本（codebook），好比厨房里的香料盒——一格格离散的小向 ...

个人分类: AI 浪潮|3039 次阅读|没有评论

跨模态连接器范式：谷歌模型Flamingo回顾

李维 2025-9-3 09:39

Flamingo：桥接视觉模型与文本LLM 多模态模型研究历史上的另一个里程碑工作是谷歌DeepMind 的 Flamingo，其定位是少样本（few shots）多模态：给它一段“图像/视频与文字交错”的提示（prompt），它就用自回归的方式生成答案或描述，相当于直接建模 p(y∣x) 文本在前、图像/视频在后交错，带因果掩码）——这使它 ...

个人分类: AI 浪潮|2562 次阅读|没有评论

图文对齐的关键一跃：CLIP 回顾

李维 2025-9-3 09:37

如何把“图”和“文”放进同一张地图 CLIP（Contrastive Language-Image Pre-training）是由OpenAI提出的跨模态预训练对比学习模型，是多模态研究的重要突破之一。多模态真正站稳脚跟，是从“把图像与文字放进同一张语义地图上”开始的。CLIP 做的，恰是这件看似朴素却最要紧的图文对齐的基本建设。想象一间教室，三十 ...

个人分类: AI 浪潮|2700 次阅读|没有评论

注意力塌缩：关于“秩”的误会与真相

李维 2025-8-30 12:03

话题听上去冷僻，却关乎大模型的命脉。进入技术话题之前，熟悉一下基本概念什么是矩阵的秩（Rank）？你可以把一个矩阵想象成一堆向量排成的表格。秩 (rank) 就是这个表格里真正「独立信息」的数量。举个例子：矩阵里面两行完全不同，能提供两条独立信息 → 秩 = 2。矩阵第 ...

个人分类: AI 浪潮|9715 次阅读|没有评论

BERT 双向 vs. GPT 单向与“低秩之虑”

李维 2025-8-28 10:22

1. “低秩”到底在说什么？别把它理解成某个单一注意力矩阵的严格秩。在表征学习里，人们更关心整批隐藏向量的“可用维度”。做个想象实验：收集一大批句向量，做 PCA，若前几个主成分吃掉了绝大部分方差，剩下维度几乎没贡献——这就是“低有效秩（low effective rank） ”。主成分越“一家独大”，熵越低， e-r ...

个人分类: AI 浪潮|1834 次阅读|没有评论

自监督学习的两大模型，为什么GPT跑赢了BERT成为王者？

李维 2025-8-23 14:02

两者的零件很像，但工作习惯完全不同：，像老师先通读整篇再下判断；它产出的主要是“看懂后的内部表示”。要把“看懂”变成，还得在它上面（比如分类器、序列标注器、指针解码器等）。所以做情感分类、实体识别、检索匹配这类分析活儿，它是个扎实的底座，但每个任务都需要“再装一个尾巴”。，像台上即兴演说：听到哪儿、 ...

个人分类: AI 浪潮|2362 次阅读|没有评论

“宇宙操作系统”：世界是怎么搭建的？

李维 2025-8-19 11:36

立委按：神龙见首不见尾的尼克老友，江湖上称尼克大师。他是计算理论家，红遍大江南北的《人工智能简史》作者。最近他在群内发了高论，谈的是计算主义世界观，笔记如下，或有启示。 1. 科学的“乌龟塔”：世界是怎么搭建的？ (TheTurtleStackofScience) 我们通常认为世界是这样一层一 ...

2453 次阅读|没有评论

Is the World Material or Informational?

李维 2025-8-19 11:33

ArecentdialoguewithmyoldbuddyNick,acomputationtheorist,sparkedafascinatingandprofoundlineofthought.Increasingly,hesaid,Ifeelthatcomputation&n ...

个人分类: AI 浪潮|2073 次阅读|没有评论

AI 的威胁：不是恶意，而是作用链

李维 2025-8-18 18:13

最近看了一个视频：AI 教父辛顿说若「母性本能」不植入 AI，我们人类就将成为历史。所谓把母性本能植入大模型，就是“教大模型向善”的一种，说老实话，听上去就很扯。辛顿当然是伟人，但智者千智，必有一愚，他的有些言论就完全经不起推敲。善恶观、价值观、世界观、宗教情怀、朴素感情、人性，等等，根本就不在机器 ...

个人分类: AI 浪潮|3808 次阅读|没有评论

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

liwei999

关闭安全验证