||
使用图神经网络提高说话人验证后端性能
陈金凤1, 2,方志华1, 2,何亮1, 2,3,4
(1. 新疆大学 计算机科学与技术学院,乌鲁木齐 830017;2. 新疆信号检测与处理重点实验室,乌鲁木齐 830017;3. 新疆大学 智能科学与技术学院学院,乌鲁木齐830017;4. 清华大学 电子工程系;北京国家信息科学与技术研究中心,北京 100084)
摘要:目前关于说话人验证任务的研究集中在改进深度说话人模型,以提取高质量的说话人嵌入。然而,不同的说话人嵌入之间可以看做潜在的图结构。因此本文提出一种基于图神经网络的说话人验证后端方法,将说话人前端提取的说话人嵌入作为图结构利用图神经网络发掘嵌入之间的相互关系,得到更高质量的说话人嵌入。此外我们提出一种分组更新方法解决了当节点数量过多导致计算设备过载的问题。我们在VoxCeleb数据集上进行了大量的实验和消融,实验结果证明了我们提出的图神经网络说话人后端可以有效提升说话人验证系统的性能。
关键词:说话人验证,图神经网络,说话人嵌入
点击分享码全文pdf浏览:https://rdcu.be/ecxPP
Cite this article:Chen, J., Fang, Z. & He, L. Improving Speaker Verification Back-End with Graph Neural Networks. J. Shanghai Jiaotong Univ. (Sci.) (2025). https://doi.org/10.1007/s12204-025-2806-8
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-5-11 11:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社