科学网-当AI“完美”歌唱时：技术镜像中的艺术本质追问——以范竞马先生的感受为起点的独立思考-马金龙的博文

切换到桌面版

当AI“完美”歌唱时：技术镜像中的艺术本质追问——以范竞马先生的感受为起点的独立思考

2026-4-15 14:25

阅读：311

《AI与声音的迷思》系列之二

当AI“完美”歌唱时：技术镜像中的艺术本质追问

——以范竞马先生的感受为起点的独立思考

马金龙

（中国科学院）

━━━━━━━━━━━━━━━━━━━━

【写在前面】

系列第一篇《为什么AI歌声能打动人，却未必“拥有情感”？》发表后，原计划本篇探讨AI声音克隆的技术与伦理。但就在昨天，一个鲜活的案例出现了——

歌唱家范竞马先生发表了题为《当AI完美歌唱时，我们人类歌唱该何去何从？》的解读(https://v.douyin.com/vYvvbEfcNQE/)。作为职业歌者，他在听到AI生成的男高音演唱后感叹：“这下可真的要面临失业了。”这种真诚的震撼和焦虑，恰恰集中体现了本系列想要探讨的核心问题。

与其继续抽象讨论技术细节，不如借此具体文本，深入剖析一个真实艺术家面对AI时的困惑与思考。这也符合本系列的初衷——让技术讨论始终锚定于人的现实关切。

因此临时调整顺序，原定的“声音克隆”主题将顺延至系列之三。学术写作的价值，也许正在于这种对现实的及时回应。

现在，让我们走进范竞马先生的“AI震撼”。

━━━━━━━━━━━━━━━━━━━━

一、一次真诚的震撼

歌唱家范竞马先生近日发表了题为《当AI完美歌唱时，我们人类歌唱该何去何从？》的解读，记录了他听到AI生成的男高音演唱后的震撼：“这下可真的要面临失业了”。作为职业歌者的焦虑跃然纸上——AI在音准、音色、气息控制、声区转换等技术层面已“近乎完美”，甚至“登峰造极”。

这种震撼是真诚的，也具有代表性。它折射出整个艺术界在AI浪潮下的集体焦虑：当机器可以完成我们穷尽一生训练的技能时，人的价值何在？

范先生的可贵之处在于，他没有止步于恐慌，而是试图从这面技术镜像中反思歌唱的本质。他提出三个核心观点：AI重新定义了“唱得好”；AI越接近完美，越证明要回归歌唱本质；人类必须发挥机器无法拥有的优势。

这些思考触及了AI时代艺术哲学的核心命题，但作为科研工作者，我认为有必要在肯定其洞察的同时，对一些关键问题做更深入的辨析。

二、AI真的“完美”吗？——技术现实的澄清

2.1 统计完美≠艺术卓越

范先生所听到的AI演唱，很可能是基于深度学习的歌声合成系统（如Diffsinger、NNSVS或商业化的SVC模型）。这类技术确实在近年取得了突破性进展，但我们需要理解其“完美”的本质：

这是统计学意义上的优化，而非艺术意义上的创造。

AI通过学习数百小时的人声录音，提取出音高、音色、时长等参数的概率分布模式。它生成的声音是对训练数据的平滑化拟合——音准精确是因为算法消除了人声的微小波动，声区统一是因为模型抹平了真实人声的物理转换痕迹。

这就像照片的“美颜算法”：它可以让皮肤无比光滑，但那张脸可能失去了真实的生命质感。

2.2 演示样本的选择性偏差

作为AI研究者，我必须指出：范先生听到的很可能是经过精心调教的演示版本。实际应用中，AI歌声合成仍面临诸多挑战：

· 情感表达的程式化：AI可以模仿“悲伤”的声学特征（音色暗淡、颤音加深），但这是模式匹配，而非真实情感涌动

· 文化理解的缺失：AI无法理解“大江东去”的历史苍凉感，或“教我如何不想她”的民国风韵

· 即兴能力的局限：面对乐队的临场变化、观众的情绪反馈，AI难以做出有机回应

· 风格创新的困境：AI擅长模仿既有风格，但难以开创真正原创的美学语言

更重要的是，当前AI歌唱的“完美”高度依赖工程师的参数调整。一个优秀的AI演唱demo，背后可能是数十小时的人工微调——这恰恰说明，机器远未达到“自主完美演唱”的程度。

2.3 技术边界的清醒认知

我们需要区分两个层面：

技术层面：AI在可量化参数（音准、时值、音量）上确实可以超越多数人类艺术层面：AI在诠释深度、文化传承、美学创新上仍处于初级阶段

范先生的焦虑，某种程度上是将前者误认为后者的全部。

三、“完美悖论”的哲学洞察

3.1 技术完美与艺术本真的张力

范先生提出的一个深刻命题是：“AI越接近完美，越证明真正高级的演唱要回到歌唱本质”。

这触及了艺术哲学的核心悖论：

在西方古典音乐史上，19世纪浪漫主义反对机械化的“完美”演奏，强调个人情感表达；20世纪本真演奏运动（Historically Informed Performance）又反对过度浪漫化，追求作曲家原意的“准确”再现。这两场运动看似矛盾，实则都在追问：音乐的真实性（authenticity）究竟是什么？

AI的出现，将这个问题推向极致：

· 如果“完美”可以被算法实现，那它还是艺术的理想吗？

· 如果技术精湛不再稀缺，艺术的价值锚点在哪里？

日本美学的“侘寂”（wabi-sabi）哲学给出了一个答案：真正的美存在于不完美、无常、不完整之中。茶碗的裂纹、庭院的枯枝、声音的沙哑，这些“缺陷”恰恰是时间、生命、真实存在的印记。

钢琴家Glenn Gould的颤音被认为“不规范”，但成为其标志；歌唱家玛丽亚·卡拉丝（Maria Callas）晚年的音准问题，反而让她的诠释更具戏剧张力。艺术的不可替代性，往往藏在那些“不完美”的人性化细节里。

3.2 具身性：人类歌唱的本体论基础

范先生直觉地感受到，AI与人类歌唱有某种本质差异，但未能完全阐明。这里我想引入认知科学的核心概念：具身性（embodiment）。

具身认知理论认为，人类的认知、情感、表达不是抽象的心理过程，而是深深根植于身体经验中的。歌唱是具身性的典范：

1. 呼吸与存在的联结：人类歌唱的气息不仅是“技术支撑”，它连接着心跳、情绪、此时此地的生命状态。紧张时喉咙收紧、悲伤时胸腔下沉——这不是“演技”，而是情绪直接改变身体状态。

2. 共鸣腔体的独特性：每个人的头骨、鼻窦、胸腔结构不同，这些物理差异创造了独一无二的音色。帕瓦罗蒂的“金属光泽”、卡雷拉斯的“天鹅绒质感”，源于他们独特的生理构造。

3. 肌肉记忆与隐性知识：多年训练形成的喉肌控制，无法用语言完全描述的“支点感”，师徒间通过身体示范传递的微妙经验——这些是非信息性的知识，难以被数字化捕捉。

4. 声音即历史：人声承载着年龄、经历、创伤。一个经历过战争的歌者，其声音中的沧桑感不是技术可以模仿的。

AI生成歌声的过程是：算法→波形→扬声器。中间没有真实的呼吸、颤动的声带、共振的骨骼。它可以模拟结果，但缺失产生这结果的活生生的身体过程。

法国现象学家梅洛-庞蒂说：“身体是我们拥有世界的方式。”人类歌唱的不可替代性在于——它是一个活着的身体在唱，带着疲惫、伤痛、欲望、恐惧。这种脆弱的、会失误的、有温度的存在感，正是艺术打动人心的根源。

四、“万能母音”印证论的商榷

范先生认为，AI的演唱结果“印证了万能母音训练所追求的声音本质”。作为科研工作者，我需要指出这里存在循环论证的风险。

4.1 因果关系的混淆

AI歌声的“统一性”来自于：

· 深度神经网络对大量数据的平滑化处理

· 声学参数（共振峰、基频）的连续插值

· 训练目标函数对“自然度”的优化

这是算法优化的副产品，而非对某种声乐理论的“证明”。

类比：如果一个图像生成模型画出了符合黄金分割的人脸，我们不能说这“印证了古希腊美学理论”——它只是学习了大量符合人类审美偏好的样本。

4.2 目标的根本差异

人类声乐训练追求的“统一”：

· 在尊重个体生理差异的基础上

· 达到自由、健康、可持续的发声

· 保留并发展个人独特的音色特质

AI的“统一”：

· 消除训练数据中的个体差异

· 生成符合统计平均值的“标准”声音

· 趋向同质化而非个性化

如果声乐教育以“接近AI的完美”为目标，可能导致艺术的贫瘠化。优秀的教学应该培养：

· 对不同风格的驾驭能力（巴洛克、浪漫派、现代作品）

· 对文化语境的敏感性（艺术歌曲、歌剧、民歌）

· 独特的艺术个性（而非标准化的“正确”）

4.3 技术与艺术的辩证关系

当然，范先生对声音技术本质的追求（稳定支点、统一通道、元音转换）是有价值的。但技术是手段，不是目的。

伟大的歌唱家往往在掌握技术后“忘记”技术——卡拉丝说：“技术就像脚手架，房子建好后要拆掉。”技术的最高境界是化技术为无形，让它服务于艺术表达，而非成为炫耀的对象。

AI恰恰提醒我们：如果歌唱只剩下技术，那它确实可以被算法替代。

五、超越对立：人机协同的可能性

5.1 走出“替代焦虑”

范先生的解读陷入了“AI将取代人类歌者”的二元对立框架。但更建设性的视角是：AI如何成为艺术创作和教育的工具与伙伴？

在声乐教育中：

· 实时音准、共鸣位置反馈（比人耳更精确）

· 个性化练习曲生成（根据学生弱点定制）

· 濒危演唱风格的数字保存（如昆曲、蒙古长调）

在艺术创作中：

· 冰岛歌手Björk使用AI生成的和声探索新音色空间

· 美国作曲家Holly Herndon训练AI学习自己的声音，创作“数字分身”参与合唱

· AI可以快速生成demo，帮助作曲家验证想法

在音乐体验中：

· 为已故歌唱家“复活”演唱新作品（伦理争议需慎重讨论）

· 生成个性化的演唱教学示范

· 降低音乐创作门槛，让更多人参与

关键是：人类保留创意主导权，AI处理技术实现。这不是“失业”，而是分工的重新配置。

5.2 拥抱“数字原生”美学

更激进的思路是：AI歌唱不应只是模仿人声，而应发展自己独特的美学。

· 人声受生理限制（音域、持续时长），AI可以突破

· AI可以实时生成多声部和声

· AI可以探索人耳无法发出但悦耳的“超人类”音色

就像电子音乐不是模仿交响乐，而是创造了全新的声音世界——AI歌唱也可以开辟独特的审美维度。

当然，这需要艺术家、工程师、音乐学家的深度协作，而非工程师的单向技术炫耀。

六、人类歌者的不可替代性

范先生在解读末尾提出：“人类歌者真正不可取代的价值到底是什么？”这是一个待续的追问，在此我尝试给出一个答案框架：

6.1 存在的见证性

人类歌唱是一个具体的人在具体的时空中的存在表达。

· 玛丽亚·卡拉丝1965年在大都会歌剧院的《托斯卡》，她知道这可能是最后一次演唱这个角色，那种告别感渗透在每个音符中。

· 一个母亲为婴儿唱摇篮曲，重要的不是音准，而是声音传递的安全感和爱。

AI可以生成完美的《托斯卡》，但它没有“最后一次”的感知；它可以合成摇篮曲，但缺失母子联结的温度。

6.2 文化传承的活性

人类歌者是活的文化载体：

· 京剧老生的“云遮月”嗓音，承载着百年的审美传统

· 非洲格里奥（griot）歌手用歌声保存部落历史

· 师徒间的“口传心授”，传递的不仅是技术，更是对艺术的理解方式

AI可以学习风格，但无法体验产生这风格的历史语境；它可以存储信息，但无法进行有温度的代际对话。

6.3 冒险与创新的勇气真正的艺术创新需要冒险——尝试可能失败的新东西。

· 爵士歌手Ella Fitzgerald的即兴拟声（scat singing）常常“走钢丝”，但正是这种不确定性创造了魔力

· 当代作曲家探索人声极限（喘息、耳语、呐喊），挑战传统美声观念

AI基于已有数据训练，它可以优化，但难以真正“跳出框架”。创新需要直觉、冲动、有时甚至是“非理性”——这些恰恰是人类创造力的源泉。

6.4 脆弱性的美学

人声会疲劳、会沙哑、会因情绪失控而颤抖——这些“缺陷”恰恰传递了真实。

· Leonard Cohen晚年沙哑的嗓音，比年轻时更动人

· Billie Holiday的“破碎”音色，成为爵士乐的标志

· 一个歌者在演唱《安魂曲》时的哽咽，可能比完美的技术更震撼人心

AI的“稳定”是优势也是局限——它无法传递人类存在的脆弱性和有限性，而这正是艺术最深刻的主题。

七、重新定义“何去何从”

回到范先生的标题：“当AI完美歌唱时，我们人类歌唱该何去何从？”

我的答案是：不是“何去”，而是“何为”——我们要重新理解歌唱的意义。

7.1 从“完美竞赛”到“意义创造”

放弃与AI比拼技术指标（谁更准、谁更稳、谁更强），转而追问：

· 这首歌为什么要唱？

· 我通过歌唱想传达什么独特的理解？

· 我的生命经验如何赋予作品新的层次？

这是从“工匠”到“艺术家”的跃升。

7.2 从“个人炫技”到“共同体建构”

歌唱的价值不只在于个人技艺，更在于它创造的社会联结：

· 合唱团的共同呼吸

· 现场音乐会的能量交换

· 民歌传唱中的文化认同

AI可以生成声音，但无法参与这种“在一起”的体验。

7.3 从“技术训练”到“人文涵养”

声乐教育应该更加重视：

· 文学、历史、哲学修养（理解作品的文化深度）

· 跨艺术门类学习（戏剧、舞蹈、绘画）

· 社会参与和生活体验（艺术来源于生活）

一个读过陀思妥耶夫斯基的歌者，其演唱的深度可能超越单纯的技术训练。

7.4 从“保守传统”到“创新实验”

拥抱新可能性：

· 探索人机协作的新艺术形式

· 挑战传统声乐美学的边界

· 将歌唱与科技、社会议题结合

当传统技能被AI掌握，人类的价值恰恰在于想象尚未存在的东西。

八、结语：技术镜像中的人性回归

范竞马先生的震撼和焦虑，代表了我们这个时代的集体困惑：当AI可以完成越来越多“人类专属”的任务，我们的存在意义何在？

但也许，AI的挑战恰恰是一份礼物——它迫使我们重新追问那些被技术遮蔽的根本问题：

· 艺术的本质是什么？

· 人之为人的独特性何在？

· 我们究竟为什么歌唱？

AI可以生成完美的波形，但它不会因为一首歌而心跳加速、热泪盈眶。它可以模拟所有的技术参数，但它没有“我”——没有独特的生命史、文化身份、存在焦虑。

人类歌唱的不可替代性，不在于我们能唱得多“完美”，而在于：

· 我们用身体在唱（具身性）

· 我们用生命在唱（存在性）

· 我们用文化在唱（历史性）

· 我们为彼此而唱（社会性）

当AI越来越“完美”，我们反而应该更珍视那些“不完美”——颤抖、沙哑、破音、失误——因为那是生命在场的证据，是技术无法抹去的人性印记。

范先生在解读结束时说“请听下一期”，期待他对“人类歌者真正不可取代的价值”的进一步思考。而我想说：这个问题的答案，不会在下一期，而在每一次真诚的歌唱中，在每一个愿意用整个存在去诠释音乐的瞬间。

AI时代，歌唱的意义不是“何去何从”，而是“在此在场”（being here）——用我们脆弱、有限、独一无二的人声，见证这个时代，传递我们的理解，创造只有人类才能创造的意义。

这，正是技术永远无法替代的。

（作者注：本文旨在促进科学与艺术的跨界对话，期待与更多声乐教育家共同探讨。）

相关阅读：

· 梅洛-庞蒂：《知觉现象学》

· 海德格尔：《艺术作品的本源》

· Holly Herndon: “PROTO” (AI协作音乐专辑)

· Cook, N. (2013). Beyond the Score: Music as Performance. Oxford University Press.

· 马金龙：歌声中的孤波：人类声音系统的非线性现象，《科学智慧火花》，2026年1月16日https://idea.cas.cn/zhhh/gcjskxygjs/gcjskxygjs_qt/info/2026/553599.html

转载本文请联系原作者获取授权，同时请注明本文来自马金龙科学网博客。

链接地址：https://wap.sciencenet.cn/blog-312-1530486.html?mobile=1

当前推荐数：0

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录