D0I:10.13878/j.cnki.jnuist.20221108003郭新邓爱文²罗程方²又邓飞其?开放场景下短时语音说话人识别系统的优化设计摘要为适应开放场景下说话人识别短时语音的应用需要,本文对说话人识别模型进行优化,提升了模型的准确率和鲁棒性.为了实现对重要频率特征的筛选,提出基于重加权的特征增强层及网络,起到增强特征表达的作用.将人脸识别领域的误分类样本损失函数首次引入到说话人识别领域,提高对困难样本的挖掘能力.提出基于误分类样本挖掘的分类损失与基于小样本学习框架的余弦角度原型损失的组合损失函数,解决了分类损失函数与说话人识别实际评测需求不匹配和度量函数对采样策略依赖性强的问题.实验结果显示,与基准模型相比,性能指标等误率(EER)降低12.45%,最小检测代价函数(minDCF)降低14.09%,取得现有说话人识别领域的优异效果,关键词说话人识别;重加权;特征增强层;分类损失函数;度量损失函数中图分类号TN912.3;TP18文献标志码A收稿日期2022-11-08资助项目广东省普通高校特色创新类项目(2022KTSCX258,2021KTSCX224);广州市基础研究计划(202002030476);广东交通职业技术学院项目(GDCP-ZX-2021-004-N1)作者简介郭新,女,博士,讲师,研究方向为说话人识别.guoxin@gdep.edu.cn邓飞其(通信作者),男,博士,教授,研究方向为动力系统的稳定性分析、随机与非线性系统的分析等.aufqdeng@scut.edu.cn1广东交通职业技术学院机电工程学院,广州,5106502华南理工大学自动化科学与工程学院,广州,5106410引言说话人识别通过分析语音中的声纹特征来确认说话人身份,实现这一任务的关键在于如何从语谱图中提取具有足够区分性的说话人特征.说话人识别具有广泛的应用场景,如智能家居唤醒、用户账号登录和电话诈骗破案等.随着电子设备性能的提升,基于深度学习的说话人识别系统性能取得显著进步,但是在开放场景下短时输入语音的识别性能还有待提高,其核心在于如何改进顿级特征提取网络、特征聚合层和损失函数3个关键技术.顿级特征提取网络方面,主流的网络有TDNN及其变体[1-2]和ResNet结构[3].TDNN系列网络能够提取时序依赖性强的特征,ResNet结构则利用二维卷积神经网络进行特征提取,且一般特征提取网络对输入语谱的不同频率没有区别对待,但并非每个频率范围的特征信息对说话人识别系统模型的确立同等重要,实际上低频率声纹特征具有更高的贡献度[4-5].Zhou等[6]在原始ResNet结构中加入SE(Squeeze-and-Excitation)模块,有效地增强了特征通道...