科学网-大模型又整活，照片也能唱歌说话

切换到桌面版

大模型又整活，照片也能唱歌说话

2024-04-29 17:29

来源：中国科学报微信公众号

文 | 《中国科学报》记者赵广立

不得了，沉睡两千多年的秦陵兵马俑居然“唱”起秦腔来了！

在类似的几段视频中，兵马俑不仅能开口唱歌，就连面部表情也惟妙惟肖；仔细看，还能看到他的喉结在动、胸腔共鸣……

不仅有兵马俑，还有蒙娜丽莎、奥黛丽·赫本、孔子、鲁迅……只要一张照片和一段音频，他们就能开口说话、唱歌、来上一段Rap。还记得视频生成大模型Sora演示视频中东京街头的那位时尚女郎吗？她现在也开口“献唱”了。

这一切都来源于通义实验室研发的人工智能大模型EMO—— Emote Portrait Alive（表情肖像视频）。EMO模型只需一张肖像照、一段音频，就可生成栩栩如生的照片说话（talking head）视频。

4月26日，EMO模型正式上线通义APP，并开放给所有用户免费应用。目前，借助这一功能，用户可以在唱歌、热梗、表情包中任选一模板，通过上传一张肖像照片就能get一段同款唱作。

EMO不同于Sora，更有别于换脸和数字替身

EMO其实早在生成式AI的圈子里就“火”了一把。

今年2月底，通义实验室就在开放获取平台arXiv上公布了EMO模型的技术论文，并在开源社区GitHub上展示了项目主页。论文公布后，引起外媒广泛关注，被认为是“继Sora之后最热门的AI视频模型之一”。

目前，EMO在Github上热度不减，已有超过6700颗星标标记。

两个月之后的今天，基于EMO的产品即告上线通义APP，开始免费让公众体验——这种做事效率也为EMO赢来不少点赞。

EMO模型的技术论文标题——《EMO：在弱条件下使用“音频生视频”的扩散模型生成富有表现力的肖像视频》（Emote Portrait Alive -Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions），简洁明了地推介EMO——一款由音频驱动的肖像视频生成框架。

具体到技术原理，论文称，训练阶段，研究团队构建了一个包含超过250小时视频和超过1500万张图像的、多样化的音视频数据集作为训练数据。在生成阶段，EMO模型首先从参考图像和视频的帧中提取特征，进行“帧编码”，之后开始“扩散”：预训练的音频编码器处理音频嵌入，人脸区域掩模与多帧噪声相结合来控制人脸图像的生成。随后，骨干网络执行“去噪”操作，分别应用“参考注意力”和“音频注意力”作用于保持角色的身份一致性和调节角色的运动。

这显然与文生视频大模型Sora的技术路线不同。相比给一段文字描述生成一段视频，EMO更注重于让照片“活”起来。

阿里巴巴通义实验室XR实验室负责人、论文作者之一薄列峰告诉《中国科学报》，EMO与此前已有的“换脸”、AI数字替身等技术完全不同。

薄列峰

“换脸”技术通常是将一个人的脸部特征替换到另一个人的脸上，这种技术更多地关注于脸部特征的替换和合成；而数字替身技术则是通过计算机图形学、动作捕捉等技术创建一个数字化的虚拟人物，它可以模拟真实人类的行为和表情，但前提是需要输入一段要替代的人物的视频供模型学习。

“想象一下，你甚至可以跟不同年龄段的自己对话，是不是很有趣？”薄列峰谈道，EMO专注于视频场景中最为广泛的肖像视频，有许多应用场景和想象空间。

“弱控制”让Talking Head更普惠

论文标题中有一组关键词耐人寻味：弱条件（Weak Conditions）和强表现力（Expressive）。薄列峰告诉《中国科学报》，“弱条件”（他更喜欢称之为“弱控制”）正是这项技术的精髓所在。

人在讲话时的面部表情、头部动作、肢体语言等与声音是关联的，不同的声音和情绪，对应着不同的表情或动作，这也是声音所“裹挟”的表现力。

“我们希望模型能够‘学到’对应声音的情绪和表情动作，这就是我们所说的‘弱控制’。”他解释说，对应地，“强控制”一般需要通过针对面部关键点或表情动作进行显示表征建模，然后通过所建模型对声音匹配生成视频的每一帧画面。

通义实验室的作者团队在业界首次剔除了针对人脸或身体部分的显示表征建模，就是希望EMO通过弱控制（条件）也能得到较强的表现力。

依薄列峰所言，EMO模型生成的视频中，人物的表情、动作能与音频所表达的情绪保持一致，是模型通过训练“习得”、自动化地产生的。

没有“强控制”，它如何做到？

“我们对声音做了编码，整个网络架构都用到了声音这个连续的信号，这保证了在时域上的连续性；在表现力部分，我们依靠模型对高质量数据的理解，做到音频与视频表达的相辅相成。”薄列峰回答道。

他进一步解释说，EMO模型在海量的人物讲话视频上进行了训练，不仅能够找到音频中具体发音与人像口型的匹配关系，更重要的是能发现音频中的语气特征与人物表情的关联性，从而将音频暗含的情绪色彩反映到人物微表情上。

“可以说，EMO在训练中慢慢学习并编码了人类表达情绪的能力。”他介绍，在训练中，EMO模型通过利用Audio-Attention模块找到音频特征与图像中像素的对应关系，并放大音频特征对嘴部、眉眼等位置像素的影响，把音频中的情绪特征外化到人脸上。

从目前生成的视频效果来看，EMO不负众望。从通义实验室提供的演示视频来看，EMO支持各类语言的交谈与唱歌（演示中包括普通话、广东话、英语、日语、韩语等），也支持不同风格（照片、传统绘画、漫画、3D渲染、AI数字人、雕塑）的艺术表达。

“强控制当然有其特色和用途，但我们觉得，弱控制能让更广泛的人群享受到技术红利，让大家都能玩、都能用起来。”薄列峰说，强控制需要依赖一些专业的估计方法，“门槛相对高一些”；而EMO仅仅只需要一张图片与一段音频，就可以生成具有高表现力的讲话视频，“有助于推动Talking Head技术的大规模应用”。

视频更加真假难辨？EMO有安全考虑

从“换脸”到AI替身，再到Sora、EMO这些视频生成工具，网络上的视频内容越来越难辨真假了。有网友感叹：“以后除了面对面看到活人，视频我是不信了。”

《中国科学报》也把这个问题提给了薄列峰。

“作为负责任的视频生成，我们会在生成的视频中打上生成水印，包括肉眼可视的和肉眼不可视的，以方便大家甄别。”薄列峰说。

他告诉记者，AI视频生成和AI视频鉴别其实是一对“攻—防”技术，也是相辅相成发展的。他希望人们不要太过忧心，“有很多技术手段和路径去辨别视频是否为AI所生成”。

不过，为防止EMO技术被滥用，薄列峰表示，通义实验室团队在通义APP内预置了经过审核的音频模板，暂不开放用户在EMO中自定义音频。因此，目前用户在通义APP上的体验中，只能通过上传符合规范的照片来生成视频，且需严格遵守平台协议。同时，平台会对用户生成内容进行算法和人工两道审核，以确保内容安全。

另外，同样出于安全方面考量，目前，EMO暂不开放API，团队将对安全策略进行充分论证后再推出下一步动作。

“通义实验室也欢迎社会各界群策群力，提供更好的安全建议，以便在安全可控的前提下推动大模型技术和应用的发展。”薄列峰说。

自2023年ChatGPT掀起生成式人工智能的热潮以来，大模型在中国迅速发展，受到了前所未有的关注。进入2024年，Sora、EMO等视频生成模型的出现，AI视频生成的“山头”开始热闹起来。从生成文本到AI作图、生成视频，人工智能技术正给这个时代带来越来越多的变革。面对变化，你，准备好了吗？