陈孝良的个人专栏分享 http://blog.sciencenet.cn/u/brygid 谈谈声学,聊聊智能

博文

怎样评价谷歌语音合成的WaveNet和微软语音识别的“里程碑”? 精选

已有 14616 次阅读 2016-9-16 19:55 |系统分类:科研笔记| 语音识别, 语音合成

最近几周,语音交互领域非常的热闹,谷歌和微软的几则新闻相继刷爆了朋友圈,先来回顾下这三则新闻:


首先是Google的DeepMind实验室9月初公布了其在语音合成领域的最新成果WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前常用的语音合成方法:参数化合成(Parameric TTS)与拼接式合成(Concatenative TTS)。


没几天,谷歌大脑团队成员在 GitHub 发布消息,开源了一个基于One Billion Word Benchmark预先训练过的模型。这个数据库含有大约 10 亿个单词,词汇有 80 万单词,大部分都是新闻数据。论文作者对 CNN 或 LSTM做了彻底研究,单一模型最好成绩将结果从 51.3 提高到 30.0(同时将参数数量减少了 20 倍),模型融合的后将混淆度(perplexity)从 41.0下降到 23.7。


随后,微软首席语音科学家黄学东在论文中表示,他们在近期产业标准Switchboard语音识别基准测试中,实现词错率(WER)低至6.3%的这一技术突破,这比IBM上周达到的6.6%WER下降了0.3%,达到目语音识别领域错误率最低的水平。这个突破被视为微软语音识别的里程碑。


怎样评价谷歌发布的WaveNet语音合成方法?


最引人关注的自然是Google发布的WaveNet。这是一个新的思路,在此之前,语音合成已经很长时间没有任何实质性进步,无非就是参数化和拼接式两种方法。


参数化语音合成是最常用也是历史最悠久的方法,就是利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造声音数据。当前机器人的发音主要就是采用的这种方法,不过参数化合成的语音听起来总是不自然,真的就像机器发出的声音。


另外一种就是拼接式语音合成,先录制单一说话者的大量语音片段,建立一个大型语料库,然后简单地从中进行选择并合成完整的大段音频、词语和句子。我们有时会听到机器模仿某些明星的声音,其背后技术就是这种方法。但是这种方法要求语料库非常大,而且处理不好就经常产生语音毛刺和语调的诡异变化,并且无法调整语音的抑扬顿挫。

WaveNet则引入了一种全新的思路,区别于上面两种方法,这是一种从零开始创造整个音频波形输出的技术。WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络,让其能够辨别语音和语言的模式。WaveNet的效果是惊人的,其输出的音频明显更接近自然人声。


WaveNet技术无疑是计算机语音合成领域的一大突破,也在业界引起了广泛讨论,其最大缺点就是计算量太大,但是从公开的论文来看,其中的细节还都存在很多优化方法。事实上,一旦新的思路和模型确定,计算优化只是工程问题,自然语音合成距离我们又迈进了一大步!


怎样评价微软语音识别的“里程碑”?


微软例行的PR新闻而已,没有多大参考意义,即便谷歌开源的模型也是这样。自从Siri发布以来,每年我们都会看到大量这种将语音识别率提升到某某级别的新闻,但是实际结果呢?语音交互一直没有走进千家万户,总是与我们的预期差了很多。


首先来看,谷歌开源的预训练模型和微软语音识别率的“里程碑”,其实都是基于公开测试样本库的模型改进。业界都很清楚,除非思路和模型有颠覆性改变,模型的优化实际上带来的提升空间非常有限,而训练集合的数据深度、广度和匹配才是当前提升识别率的关键,但是这也是真实场景应用中最为头疼的事情,需要借助麦克风阵列和声学技术处理和匹配。


例如谷歌开源的预训练模型,其数据库主要是基于新闻报道,这种类型的数据比起口语数据更加规范。但是在实际的应用中,模型面对的通常是非正式化的数据。所以这种模型能否适应实际应用,目前来说依然是一个大问号。


微软基于NIST 2000 Switchboard的集合相比IBM下降了0.3%,搞不明白微软这个有啥可宣传的,各家测试过程中经常会跑出各种各样的WER,而且这种在标准测试集合中的提升幅度对实际应用压根没任何影响。微软真是太喜欢写论文了,而且最近总会被动跟着谷歌做这类无关痛痒的宣传。


其次再说,语音识别模型方面真的没有什么太大的新闻,HTK和Kaldi两大语音识别开源平台基本上已经集成了最好用的一些模型,而现在大量研究人员做的无非就是优化和改进模型,但是区别都不是太大。每家公司报的95%和97%的语音识别率也仅仅是个参考意义,因为每家公司训练的样本集和测试集都不一样,这个参数实际上没有可对比性。最为重要的是,这和实际环境的语音识别率差别很大,对于非规则语音来说,匹配是个极其难以解决的问题,这需要前端和后端都对语音数据进行声学方面的处理。


最后再说,当前的语音交互还有很多痛点要解决,首当其冲的就是人机交互在真实环境的自适应性。比如现在的语音交互设备要求说话要靠近,发音要标准,环境要安静等等,这都需要麦克风进行处理。其实所有真实场景的模式识别都会遇到这个问题,比如人脸识别,对光线、角度、距离也要有一定的要求。


另外强调,人工智能现在来看还没有多少智能,这是一个重人力、重资本的行业,其所谓的智能基本都是依靠巨大的人力和财力投入换来的,这也是制约人工智能发展最大的瓶颈。即便训练一个简单的模型,各家公司就需要在数据采集和标注上投入巨额经费,另外还有流量和计算资源的投入。可怕的是,若训练结果不满意这些投入基本上都是水漂,再加上声学感知层面的处理和匹配,人工智能这个链条,真的不是一家创业公司随随便便玩动的。


参考资料:

  1. https://deepmind.com/blog/wavenet-generative-model-raw-audio/

  2. https://github.com/tensorflow/models/tree/master/lm_1b

  3. http://arxiv.org/abs/1609.03528

  4. http://arxiv.org/abs/1312.3005




https://wap.sciencenet.cn/blog-1375795-1003275.html

上一篇:苹果发布会猜想,Lightning接口取代3.5MM音频接口?
下一篇:iPhone 7新机爆出“嘶嘶声”缺陷,到底是怎么回事?
收藏 IP: 124.207.50.*| 热度|

9 彭真明 徐令予 张骥 彭思龙 刘全慧 陈南晖 wqhwqh333 liuhaoa1234 yunmu

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-13 19:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部