IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于通用背景-联合估计(UB-JE)的说话人识别方法

已有 777 次阅读 2023-10-16 12:22 |系统分类:博客资讯

引用本文

 

汪海彬, 郭剑毅, 毛存礼, 余正涛. 基于通用背景-联合估计(UB-JE)的说话人识别方法. 自动化学报, 2018, 44(10): 1888-1895. doi: 10.16383/j.aas.2017.c170051

WANG Hai-Bin, GUO Jian-Yi, MAO Cun-Li, YU Zheng-Tao. Speaker Recognition Based on Universal Background-Joint Estimation (UB-JE). ACTA AUTOMATICA SINICA, 2018, 44(10): 1888-1895. doi: 10.16383/j.aas.2017.c170051

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c170051

 

关键词

 

总变化因子分析,总变化因子空间,通用背景—联合估计算法,说话人识别 

 

摘要

 

在说话人识别中,有效的识别方法是核心.近年来,基于总变化因子分析(i-vector)方法成为了说话人识别领域的主流,其中总变化因子空间的估计是整个算法的关键.本文结合常规的因子分析方法提出一种新的总变化因子空间估计算法,即通用背景—联合估计(Universal background-joint estimation algorithmUB-JE)算法.首先,根据高斯混合—通用背景模型(Gaussian mixture model-universal background modelGMM-UBM)思想提出总变化矩阵通用背景(UB)算法;其次,根据因子分析理论结合相关文献提出了一种总变化矩阵联合估计(JE)算法;最后,将两种算法相结合得到通用背景—联合估计(UB-JE)算法.采用TIMITMDSVC语音数据库,结合i-vector方法将所提的算法与传统算法进行对比实验.结果显示,等错误率(Equal error rateEER)和最小检测代价函数(Minimum detection cost functionMinDCF)分别提升了8.3%6.9%,所提方法能够提升i-vector方法的性能.

 

文章导读

 

语音是人们用来交流和沟通的最自然、最直接的方式之一, 因此, 语音是一种重要的生物特征.作为一种重要的身份鉴定技术, 目前说话人识别[1-2]已广泛运用于国家安全、司法鉴定、电话银行及门禁安全等领域.与此同时, 说话人识别仍有许多问题需要解决, 例如信道多样化的识别、噪声对识别性能的影响等, 这就涉及到对说话人识别算法的研究.

 

2000年左右, Reynolds[3]提出的高斯混合模型-通用背景模型(Gaussian mixture model-universal background model, GMM-UBM), 以其特有的良好性能和灵活的模型结构, 降低了说话人模型对训练集的依赖, 迅速成为当时说话人识别领域的主流方法之一, 推动了整个领域的发展[4-5].GMM-UBM的思想可知, 在高斯混合函数的均值超向量(Gaussian mixture model supervector, GSV)中包含有说话人语句的所有信息.根据该思想, Kenny[6-7]提出了联合因子分析方法(Joint factor analysis, JFA), 认为说话人语句中包含说话人信息和信道信息两部分, 因此, GSV又可被分解为说话人和信道两部分. Dehak [8]研究发现, 在对JFA进行信道补偿时, 信道空间存在掩盖和重叠问题, 信道空间中不可避免地包含了一部分说话人的信息, 即不能准确地对说话人与信道分别建模.在此基础上, Dehak[9-11]提出了i-vector方法, 该方法认为对GSV进行处理时不应该区分说话人和信道, 而应该把它们看成一个整体, 即总变化空间.但是, 在总变化空间中存在信道失配问题, Dehak[9]又提出了一些信道补偿技术:线性鉴别分析(Linear discriminant analysis, LDA)和类内协方差规整(Within class covariance normalization, WCCN).近几年来, 基于i-vector方法的说话人识别模型(1)明显提升了说话人识别系统的性能, 是目前说话人识别领域中最热门的建模方法之一[12-13].在美国国家标准技术局组织的说话人评测(The National Institute of Standards and Technology speaker recognition evaluation, NIST SRE), 该方法的性能明显优于GMM-UBM [3]GSV-SVM (Gaussian mixture model supervector-support vector machine) [14-15]等方法, 是处于国际研究前沿的一种说话人识别方法.

 1  i-vector说话人识别系统

 

i-vector是一种有效的因子分析方法, 其中总变化因子空间的估计是基础和关键.为了得到性能更好的i-vector方法, 本文结合常规的因子分析方法提出了一种新的总变化因子空间估计算法, 即通用背景-联合估计(Universal background-joint estimation algorithm, UB-JE)算法.首先, 针对说话人识别任务中正负样本分布不平衡问题, 本文借鉴GMM-UBM的思想, 结合i-vector方法, 通过大量的非训练数据来训练形成一个包含大量说话人的通用背景初始总变化空间, 从而提出了总变化矩阵通用背景(Universal background, UB)算法; 其次, i-vector模型中由于均值不能很好地与更新后的总变化因子空间耦合, 我们根据因子分析理论结合文献[16-17]提出了一种总变化矩阵联合估计(Joint estimation, JE)算法; 最后, 将两种算法相结合得到通用背景-联合估计(UB-JE)算法.

 

本文结构如下:1节介绍了因子分析方法的理论, 主要是高斯混合模型超向量、联合因子分析方法和总变化因子分析方法; 2节提出通用背景-联合估计总变化矩阵估计算法, 包含两种总变化因子空间估计算法, 即通用背景算法和联合估计算法; 3节是针对提出的三种总变化因子空间估计算法的实验与结果分析; 4节是结论.

 2  GMM均值超向量的形成过程

 3  总变化因子的常规估计算法和UB算法(虚线框)比较

 

本文主要研究了说话人识别算法i-vector中总变化因子空间T的估计, 提出了四种T估计算法.实验结果显示, 在三种语音库中, 新提出的三种算法对系统的性能都有一定的提升(如图 5), 且不同语音库对每一种算法的性能都有一定的影响(如图 6).实验结果证明有效估计T对整个i-vector模型起着至关重要的作用, 验证了前面i-vector理论分析, T的估计引领着整个模型.语音库的选择对整个系统的性能有一定影响, 下一步将在更加复杂的语音库(NIST SRE语音库)上进行评测实验.

 

作者简介

 

汪海彬

昆明理工大学硕士研究生.主要研究方向为语音信号处理, 语音识别.E-mail:thankswhb@163.com

 

毛存礼  

昆明理工大学副教授.2014年获得昆明理工大学博士学位.主要研究方向为自然语言处理, 信息检索.E-mail:maocunli@163.com

 

余正涛  

昆明理工大学教授.2005年获得北京理工大学博士学位.主要研究方向为自然语言处理, 机器翻译, 信息检索.E-mail:ztyu@hotmail.com

 

郭剑毅  

昆明理工大学教授.1990年获得西安交通大学硕士学位.主要研究方向为自然语言处理, 信息抽取, 知识获取.本文通信作者.E-mail:gjade86@hotmail.com



https://wap.sciencenet.cn/blog-3291369-1406101.html

上一篇:基于Fg-CarNet的车辆型号精细分类研究
下一篇:矢量场逐次逼近的康复机器人柔顺交互控制
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 07:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部