马金龙
当AI“完美”歌唱时:技术镜像中的艺术本质追问——以范竞马先生的感受为起点的独立思考
2026-4-15 14:25
阅读:311

AI与声音的迷思》系列之二 

 

AI“完美”歌唱时:技术镜像中的艺术本质追问

——范竞马先生的感受为起点的独立思考

 

马金龙

(中国科学院)

 

━━━━━━━━━━━━━━━━━━━━

【写在前面】

系列第一篇《为什么AI歌声能打动人,却未必拥有情感?》发表后,原计划本篇探讨AI声音克隆的技术与伦理。但就在昨天,一个鲜活的案例出现了——

歌唱家范竞马先生发表了题为《当AI完美歌唱时,我们人类歌唱该何去何从?》的解读(https://v.douyin.com/vYvvbEfcNQE/)。作为职业歌者,他在听到AI生成的男高音演唱后感叹:这下可真的要面临失业了。这种真诚的震撼和焦虑,恰恰集中体现了本系列想要探讨的核心问题。

与其继续抽象讨论技术细节,不如借此具体文本,深入剖析一个真实艺术家面对AI时的困惑与思考。这也符合本系列的初衷——让技术讨论始终锚定于人的现实关切

因此临时调整顺序,原定的声音克隆主题将顺延至系列之三。学术写作的价值,也许正在于这种对现实的及时回应。

现在,让我们走进范竞马先生的AI震撼

 ━━━━━━━━━━━━━━━━━━━━

一、一次真诚的震撼

歌唱家范竞马先生近日发表了题为《当AI完美歌唱时,我们人类歌唱该何去何从?》的解读,记录了他听到AI生成的男高音演唱后的震撼:“这下可真的要面临失业了”。作为职业歌者的焦虑跃然纸上——AI在音准、音色、气息控制、声区转换等技术层面已“近乎完美”,甚至“登峰造极”

这种震撼是真诚的,也具有代表性。它折射出整个艺术界在AI浪潮下的集体焦虑:当机器可以完成我们穷尽一生训练的技能时,人的价值何在?

范先生的可贵之处在于,他没有止步于恐慌,而是试图从这面技术镜像中反思歌唱的本质。他提出三个核心观点:AI重新定义了“唱得好”AI越接近完美,越证明要回归歌唱本质;人类必须发挥机器无法拥有的优势。

这些思考触及了AI时代艺术哲学的核心命题,但作为科研工作者,我认为有必要在肯定其洞察的同时,对一些关键问题做更深入的辨析。

二、AI真的“完美”吗?——技术现实的澄清

2.1 统计完美艺术卓越

范先生所听到的AI演唱,很可能是基于深度学习的歌声合成系统(如DiffsingerNNSVS或商业化的SVC模型)。这类技术确实在近年取得了突破性进展,但我们需要理解其“完美”的本质:

这是统计学意义上的优化,而非艺术意义上的创造。

AI通过学习数百小时的人声录音,提取出音高、音色、时长等参数的概率分布模式。它生成的声音是对训练数据的平滑化拟合——音准精确是因为算法消除了人声的微小波动,声区统一是因为模型抹平了真实人声的物理转换痕迹。

这就像照片的“美颜算法”:它可以让皮肤无比光滑,但那张脸可能失去了真实的生命质感。

2.2 演示样本的选择性偏差

作为AI研究者,我必须指出:范先生听到的很可能是经过精心调教的演示版本。实际应用中,AI歌声合成仍面临诸多挑战:

· 情感表达的程式化AI可以模仿“悲伤”的声学特征(音色暗淡、颤音加深),但这是模式匹配,而非真实情感涌动

· 文化理解的缺失AI无法理解“大江东去”的历史苍凉感,或“教我如何不想她”的民国风韵

· 即兴能力的局限:面对乐队的临场变化、观众的情绪反馈,AI难以做出有机回应

· 风格创新的困境AI擅长模仿既有风格,但难以开创真正原创的美学语言

更重要的是,当前AI歌唱的“完美”高度依赖工程师的参数调整。一个优秀的AI演唱demo,背后可能是数十小时的人工微调——这恰恰说明,机器远未达到“自主完美演唱”的程度。

2.3 技术边界的清醒认知

我们需要区分两个层面:

技术层面AI在可量化参数(音准、时值、音量)上确实可以超越多数人类艺术层面AI在诠释深度、文化传承、美学创新上仍处于初级阶段

范先生的焦虑,某种程度上是将前者误认为后者的全部。

三、“完美悖论”的哲学洞察

3.1 技术完美与艺术本真的张力

范先生提出的一个深刻命题是:AI越接近完美,越证明真正高级的演唱要回到歌唱本质”

这触及了艺术哲学的核心悖论:

在西方古典音乐史上,19世纪浪漫主义反对机械化的“完美”演奏,强调个人情感表达;20世纪本真演奏运动(Historically Informed Performance)又反对过度浪漫化,追求作曲家原意的“准确”再现。这两场运动看似矛盾,实则都在追问:音乐的真实性(authenticity)究竟是什么?

AI的出现,将这个问题推向极致:

· 如果“完美”可以被算法实现,那它还是艺术的理想吗?

· 如果技术精湛不再稀缺,艺术的价值锚点在哪里?

本美学的“侘寂”wabi-sabi)哲学给出了一个答案:真正的美存在于不完美、无常、不完整之中。茶碗的裂纹、庭院的枯枝、声音的沙哑,这些“缺陷”恰恰是时间、生命、真实存在的印记。

钢琴家Glenn Gould的颤音被认为“不规范”,但成为其标志;歌唱家玛丽亚·卡拉丝Maria Callas晚年的音准问题,反而让她的诠释更具戏剧张力。艺术的不可替代性,往往藏在那些“不完美”的人性化细节里。

3.2 具身性:人类歌唱的本体论基础

范先生直觉地感受到,AI与人类歌唱有某种本质差异,但未能完全阐明。这里我想引入认知科学的核心概念:具身性(embodiment

具身认知理论认为,人类的认知、情感、表达不是抽象的心理过程,而是深深根植于身体经验中的。歌唱是具身性的典范:

1. 呼吸与存在的联结:人类歌唱的气息不仅是“技术支撑”,它连接着心跳、情绪、此时此地的生命状态。紧张时喉咙收紧、悲伤时胸腔下沉——这不是“演技”,而是情绪直接改变身体状态。

2. 共鸣腔体的独特性:每个人的头骨、鼻窦、胸腔结构不同,这些物理差异创造了独一无二的音色。帕瓦罗蒂的“金属光泽”、卡雷拉斯的“天鹅绒质感”,源于他们独特的生理构造。

3. 肌肉记忆与隐性知识:多年训练形成的喉肌控制,无法用语言完全描述的“支点感”,师徒间通过身体示范传递的微妙经验——这些是非信息性的知识,难以被数字化捕捉。

4. 声音即历史:人声承载着年龄、经历、创伤。一个经历过战争的歌者,其声音中的沧桑感不是技术可以模仿的。

AI生成歌声的过程是:算法波形扬声器。中间没有真实的呼吸、颤动的声带、共振的骨骼。它可以模拟结果,但缺失产生这结果的活生生的身体过程。

法国现象学家梅洛-庞蒂说:“身体是我们拥有世界的方式。”人类歌唱的不可替代性在于——它是一个活着的身体在唱,带着疲惫、伤痛、欲望、恐惧。这种脆弱的、会失误的、有温度的存在感,正是艺术打动人心的根源。

四、“万能母音”印证论的商榷

范先生认为,AI的演唱结果“印证了万能母音训练所追求的声音本质”。作为科研工作者,我需要指出这里存在循环论证的风险

4.1 因果关系的混淆

AI歌声的“统一性”来自于:

· 深度神经网络对大量数据的平滑化处理

· 声学参数(共振峰、基频)的连续插值

· 训练目标函数对“自然度”的优化

是算法优化的副产品,而非对某种声乐理论的“证明”

类比:如果一个图像生成模型画出了符合黄金分割的人脸,我们不能说这“印证了古希腊美学理论”——它只是学习了大量符合人类审美偏好的样本。

4.2 目标的根本差异

人类声乐训练追求的“统一”

· 在尊重个体生理差异的基础上

· 达到自由、健康、可持续的发声

· 保留并发展个人独特的音色特质

AI“统一”

· 消除训练数据中的个体差异

· 生成符合统计平均值的“标准”声音

· 趋向同质化而非个性化

如果声乐教育以“接近AI的完美”为目标,可能导致艺术的贫瘠化。优秀的教学应该培养:

· 对不同风格的驾驭能力(巴洛克、浪漫派、现代作品)

· 对文化语境的敏感性(艺术歌曲、歌剧、民歌)

· 独特的艺术个性(而非标准化的“正确”

4.3 技术与艺术的辩证关系

当然,范先生对声音技术本质的追求(稳定支点、统一通道、元音转换)是有价值的。但技术是手段,不是目的

伟大的歌唱家往往在掌握技术后“忘记”技术——卡拉丝说:“技术就像脚手架,房子建好后要拆掉。”技术的最高境界是化技术为无形,让它服务于艺术表达,而非成为炫耀的对象。

AI恰恰提醒我们:如果歌唱只剩下技术,那它确实可以被算法替代。

五、超越对立:人机协同的可能性

5.1 走出“替代焦虑”

范先生的解读陷入了AI将取代人类歌者”的二元对立框架。但更建设性的视角是:AI如何成为艺术创作和教育的工具与伙伴?

在声乐教育中:

· 实时音准、共鸣位置反馈(比人耳更精确)

· 个性化练习曲生成(根据学生弱点定制)

· 濒危演唱风格的数字保存(如昆曲、蒙古长调)

在艺术创作中:

· 冰岛歌手Björk使用AI生成的和声探索新音色空间

· 美国作曲家Holly Herndon训练AI学习自己的声音,创作“数字分身”参与合唱

· AI可以快速生成demo,帮助作曲家验证想法

在音乐体验中:

· 为已故歌唱家“复活”演唱新作品(伦理争议需慎重讨论)

· 生成个性化的演唱教学示范

· 降低音乐创作门槛,让更多人参与

关键是:人类保留创意主导权,AI处理技术实现。这不是“失业”,而是分工的重新配置。

5.2 拥抱“数字原生”美学

更激进的思路是:AI歌唱不应只是模仿人声,而应发展自己独特的美学。

· 人声受生理限制(音域、持续时长),AI可以突破

· AI可以实时生成多声部和声

· AI可以探索人耳无法发出但悦耳的“超人类”音色

就像电子音乐不是模仿交响乐,而是创造了全新的声音世界——AI歌唱也可以开辟独特的审美维度。

当然,这需要艺术家、工程师、音乐学家的深度协作,而非工程师的单向技术炫耀。

六、人类歌者的不可替代性

范先生在解读提出:“人类歌者真正不可取代的价值到底是什么?”这是一个待续的追问,在此我尝试给出一个答案框架:

6.1 存在的见证性

人类歌唱是一个具体的人在具体的时空中的存在表达。

· 玛丽亚·卡拉丝1965年在大都会歌剧院的《托斯卡》,她知道这可能是最后一次演唱这个角色,那种告别感渗透在每个音符中。

· 一个母亲为婴儿唱摇篮曲,重要的不是音准,而是声音传递的安全感和爱。

AI可以生成完美的《托斯卡》,但它没有“最后一次”的感知;它可以合成摇篮曲,但缺失母子联结的温度。

6.2 文化传承的活性

人类歌者是活的文化载体

· 京剧老生的“云遮月”嗓音,承载着百年的审美传统

· 非洲格里奥(griot)歌手用歌声保存部落历史

· 师徒间的“口传心授”,传递的不仅是技术,更是对艺术的理解方式

AI可以学习风格,但无法体验产生这风格的历史语境;它可以存储信息,但无法进行有温度的代际对话。

6.3 冒险与创新的勇气真正的艺术创新需要冒险——尝试可能失败的新东西。

· 爵士歌手Ella Fitzgerald的即兴拟声(scat singing)常常“走钢丝”,但正是这种不确定性创造了魔力

· 当代作曲家探索人声极限(喘息、耳语、呐喊),挑战传统美声观念

AI基于已有数据训练,它可以优化,但难以真正“跳出框架”。创新需要直觉、冲动、有时甚至是“非理性”——这些恰恰是人类创造力的源泉。

6.4 脆弱性的美学

人声会疲劳、会沙哑、会因情绪失控而颤抖——这些“缺陷”恰恰传递了真实。

· Leonard Cohen晚年沙哑的嗓音,比年轻时更动人

· Billie Holiday“破碎”音色,成为爵士乐的标志

· 一个歌者在演唱《安魂曲》时的哽咽,可能比完美的技术更震撼人心

AI“稳定”是优势也是局限——它无法传递人类存在的脆弱性和有限性,而这正是艺术最深刻的主题。

七、重新定义“何去何从”

回到范先生的标题:“当AI完美歌唱时,我们人类歌唱该何去何从?”

我的答案是:不是“何去”,而是“何为”——我们要重新理解歌唱的意义。

7.1 “完美竞赛”“意义创造”

放弃与AI比拼技术指标(谁更准、谁更稳、谁更强),转而追问:

· 这首歌为什么要唱?

· 我通过歌唱想传达什么独特的理解?

· 我的生命经验如何赋予作品新的层次?

这是从“工匠”“艺术家”的跃升。

7.2 “个人炫技”“共同体建构”

歌唱的价值不只在于个人技艺,更在于它创造的社会联结:

· 合唱团的共同呼吸

· 现场音乐会的能量交换

· 民歌传唱中的文化认同

AI可以生成声音,但无法参与这种“在一起”的体验。

7.3 “技术训练”“人文涵养”

声乐教育应该更加重视:

· 文学、历史、哲学修养(理解作品的文化深度)

· 跨艺术门类学习(戏剧、舞蹈、绘画)

· 社会参与和生活体验(艺术来源于生活)

一个读过陀思妥耶夫斯基的歌者,其演唱的深度可能超越单纯的技术训练。

7.4 “保守传统”“创新实验”

拥抱新可能性:

· 探索人机协作的新艺术形式

· 挑战传统声乐美学的边界

· 将歌唱与科技、社会议题结合

当传统技能被AI掌握,人类的价值恰恰在于想象尚未存在的东西。

八、结语:技术镜像中的人性回归

范竞马先生的震撼和焦虑,代表了我们这个时代的集体困惑:AI可以完成越来越多“人类专属”的任务,我们的存在意义何在?

但也许,AI的挑战恰恰是一份礼物——它迫使我们重新追问那些被技术遮蔽的根本问题:

· 艺术的本质是什么?

· 人之为人的独特性何在?

· 我们究竟为什么歌唱?

AI可以生成完美的波形,但它不会因为一首歌而心跳加速、热泪盈眶。它可以模拟所有的技术参数,但它没有“我”——没有独特的生命史、文化身份、存在焦虑。

人类歌唱的不可替代性,不在于我们能唱得多“完美”,而在于:

· 我们用身体在唱(具身性)

· 我们用生命在唱(存在性)

· 我们用文化在唱(历史性)

· 我们为彼此而唱(社会性)

AI越来越“完美”,我们反而应该更珍视那些“不完美”——颤抖、沙哑、破音、失误——因为那是生命在场的证据,是技术无法抹去的人性印记。

范先生在解读结束时“请听下一期”,期待他对“人类歌者真正不可取代的价值”的进一步思考。而我想说:这个问题的答案,不会在下一期,而在每一次真诚的歌唱中,在每一个愿意用整个存在去诠释音乐的瞬间。

AI时代,歌唱的意义不是“何去何从”,而是“在此在场”being here——用我们脆弱、有限、独一无二的人声,见证这个时代,传递我们的理解,创造只有人类才能创造的意义。

这,正是技术永远无法替代的。

作者注:本文旨在促进科学与艺术的跨界对话,期待与更多声乐教育家共同探讨。

相关阅读:

· 梅洛-庞蒂:《知觉现象学》

· 海德格尔:《艺术作品的本源》

· Holly Herndon: PROTO (AI协作音乐专辑)

· Cook, N. (2013). Beyond the Score: Music as Performance. Oxford University Press.

· 马金龙:歌声中的孤波:人类声音系统的非线性现象,《科学智慧火花》,2026年1月16日https://idea.cas.cn/zhhh/gcjskxygjs/gcjskxygjs_qt/info/2026/553599.html

转载本文请联系原作者获取授权,同时请注明本文来自马金龙科学网博客。

链接地址:https://wap.sciencenet.cn/blog-312-1530486.html?mobile=1

收藏

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?