科学网

 找回密码
  注册
大模型时代的语音技术突破:超写实和全双工
李维 2025-9-13 01:37
大语言模型(LLM)延展至音频,一路狂飙,LLM-native 的语音技术大约在半年多前开始成熟,全行业都起来了。技术成熟的重要标志是两个重要的 featrures:超写实与全双工。 像LLM类似的音频token化,不只造就了模型音乐家(代表产品Suno,另文介绍),更重要的是直接催生了两件真正改变语言交互的事:超写实的语音合成,和 ...
个人分类: AI 浪潮|9820 次阅读|没有评论
说说神经 codec,大模型时代的音频技术要点
李维 2025-9-12 17:25
“Codec”是 coder(编码)和 decoder(解码)的合体,指一整套“压缩—还原”的机器:编码那端把声音挤压成更省空间的表示,解码那端再把它尽可能还原出来。 在大模型时代,音频和文本一样,常被切成片段并编码成离散 token 的序列。用来量化的“音频词典”叫码本(codebook),好比厨房里的香料盒——一格格离散的小向 ...
个人分类: AI 浪潮|3039 次阅读|没有评论
跨模态连接器范式:谷歌模型Flamingo回顾
李维 2025-9-3 09:39
Flamingo:桥接视觉模型与文本LLM 多模态模型研究历史上的另一个里程碑工作是谷歌DeepMind 的 Flamingo,其定位是 少样本(few shots)多模态 :给它一段“图像/视频与文字交错”的提示(prompt),它就用自回归的方式生成答案或描述,相当于直接建模 p(y∣x) 文本在前、图像/视频在后交错,带因果掩码)——这使它 ...
个人分类: AI 浪潮|2562 次阅读|没有评论
图文对齐的关键一跃:CLIP 回顾
李维 2025-9-3 09:37
如何把“图”和“文”放进同一张地图 CLIP(Contrastive Language-Image Pre-training)是由OpenAI提出的跨模态预训练对比学习模型,是多模态研究的重要突破之一。多模态真正站稳脚跟,是从“把图像与文字放进同一张语义地图上”开始的。CLIP 做的,恰是这件看似朴素却最要紧的图文对齐的基本建设。 想象一间教室,三十 ...
个人分类: AI 浪潮|2700 次阅读|没有评论
注意力塌缩:关于“秩”的误会与真相
李维 2025-8-30 12:03
话题听上去冷僻,却关乎大模型的命脉。 进入技术话题之前,熟悉一下基本概念 什么是矩阵的秩(Rank)? 你可以把一个矩阵想象成一堆向量排成的表格。 秩 (rank) 就是这个表格里真正「独立信息」的数量。举个例子: 矩阵 里面两行完全不同,能提供两条独立信息 → 秩 = 2。 矩阵 第 ...
个人分类: AI 浪潮|9715 次阅读|没有评论
BERT 双向 vs. GPT 单向与“低秩之虑”
李维 2025-8-28 10:22
1. “低秩”到底在说什么? 别把它理解成某个 单一注意力矩阵的严格秩 。在表征学习里,人们更关心 整批隐藏向量 的“可用维度”。做个想象实验:收集一大批句向量,做 PCA,若前几个主成分吃掉了绝大部分方差,剩下维度几乎没贡献——这就是“低有效秩 (low effective rank) ”。主成分越“一家独大”,熵越低, e-r ...
个人分类: AI 浪潮|1834 次阅读|没有评论
自监督学习的两大模型,为什么GPT跑赢了BERT成为王者?
李维 2025-8-23 14:02
两者的零件很像,但工作习惯完全不同:,像老师先通读整篇再下判断;它产出的主要是“看懂后的内部表示”。要把“看懂”变成,还得在它上面(比如分类器、序列标注器、指针解码器等)。所以做情感分类、实体识别、检索匹配这类分析活儿,它是个扎实的底座,但每个任务都需要“再装一个尾巴”。,像台上即兴演说:听到哪儿、 ...
个人分类: AI 浪潮|2362 次阅读|没有评论
“宇宙操作系统”:世界是怎么搭建的?
李维 2025-8-19 11:36
立委按:神龙见首不见尾的尼克老友,江湖上称尼克大师。他是计算理论家,红遍大江南北的《人工智能简史》作者。最近他在群内发了高论,谈的是计算主义世界观,笔记如下,或有启示。 1. 科学的“乌龟塔”:世界是怎么搭建的? (TheTurtleStackofScience) 我们通常认为世界是这样一层一 ...
2453 次阅读|没有评论
Is the World Material or Informational?
李维 2025-8-19 11:33
ArecentdialoguewithmyoldbuddyNick,acomputationtheorist,sparkedafascinatingandprofoundlineofthought.Increasingly,hesaid,Ifeelthatcomputation&n ...
个人分类: AI 浪潮|2073 次阅读|没有评论
AI 的威胁:不是恶意,而是作用链
李维 2025-8-18 18:13
最近看了一个视频:AI 教父辛顿说若「母性本能」不植入 AI,我们人类就将成为历史。 所谓把母性本能植入大模型,就是“教大模型向善”的一种,说老实话,听上去就很扯。辛顿当然是伟人,但智者千智,必有一愚,他的有些言论就完全经不起推敲。 善恶观、价值观、世界观、宗教情怀、朴素感情、人性,等等,根本就不在机器 ...
个人分类: AI 浪潮|3808 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-27 18:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部