大工至善|大学至真分享 http://blog.sciencenet.cn/u/lcj2212916

博文

[转载]【计算机科学】【2019.05】基于深度神经网络的合成语音检测

已有 1442 次阅读 2020-4-24 16:08 |系统分类:科研笔记|文章来源:转载

本文为加拿大约克大学(作者:RICARDO REIMAO)的硕士论文,共156页。

 

随着深度学习和其他技术的进步,合成语音越来越接近自然发音。一些最先进的技术实现了如此高的自然度,甚至连人类都难以区分真实的语音和计算机生成的语音。此外,这些技术允许人们训练目标语音的语音合成器,从而创建一个能够高保真地再现某人语音的模型。通过这项研究,我们深入分析了合成语音是如何产生的,并提出了检测合成语音的深度学习方法。我们首先收集了大量真实和合成的语音来创建假的或真实的(FoR)数据集。然后,我们分析了最新的深度学习模型在这类语音分类中的表现。该模型对合成语音检测的准确率达到99.86%,比人类识别的65.7%有了显著的提高。

 

With the advancements in deep learning andother techniques, synthetic speech is getting closer to a natural soundingvoice. Some of the state-of-art technologies achieve such a high level ofnaturalness that even humans have difficulties distinguishing real speech fromcomputer generated speech. Moreover, these technologies allow a person to traina speech synthesizer with a target voice, creating a model that is able toreproduce someone’s voice with high fidelity. With this research, we thoroughlyanalyze how synthetic speech is generated and propose deep learningmethodologies to detect such synthesized utterances. We first collected asignificant amount of real and synthetic utterances to create the Fake or Real(FoR) dataset. Then, we analyzed the performance of the latest deep learningmodels in the classification of such utterances. Our proposed model achieves99.86% accuracy in synthetic speech detection, which is a significantimprovement from a human performance (65.7%).

 

1. 引言

2. 项目背景

3. FoR数据集

4. 实验

5. 结论

附录数据集预处理

附录频率分析

附录深度学习


更多精彩文章请关注公众号:qrcode_for_gh_60b944f6c215_258.jpg



https://wap.sciencenet.cn/blog-69686-1229941.html

上一篇:[转载]【信息技术】【2013.09】基于听觉模型的语音情感识别
下一篇:[转载]【信息技术】【2019.04】算法近似对图像控制系统控制质量的影响
收藏 IP: 183.160.74.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 10:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部