第46卷第1期重庆大学学报Vol.46No.12023年1月JournalofChongqingUniversityJan.2023doi:10.11835/j.issn.1000-582X.2023.01.012基于知识蒸馏与ResNet的声纹识别荣玉军1,方昳凡2,田鹏2,程家伟2(1.中移(杭州)信息技术有限公司,杭州310000;2.重庆邮电大学自动化学院,重庆400065)收稿日期:2021-07-12网络出版日期:2022-11-08基金项目:教育部-中国移动科研基金资助项目(MCM20180404);国家自然科学基金(52272388)。SupportedbyMinistryofEducationChinaMobileResearchFund(MCM20180404),andtheNationalNaturalScienceFoundationofChina(52272388).作者简介:荣玉军(1976—),男,高级工程师,主要从事人工智能、数字家庭、物联网方向研究,(E-mail)rongyujun@cmhi.chinamobile.com。通信作者:方昳凡,女,硕士研究生,主要从事深度学习、声纹识别及说话人分离方向研究,(E-mail)625450568@qq.com。摘要:针对声纹识别领域中存在信道失配与对短语音或噪声条件下声纹特征获取不完全的问题,提出一种将传统方法与深度学习相结合,以I-Vector模型作为教师模型对学生模型ResNet进行知识蒸馏。构建基于度量学习的ResNet网络,引入注意力统计池化层,捕获并强调声纹特征的重要信息,提高声纹特征的可区分性。设计联合训练损失函数,将均方根误差(MSE,meansquareerror)与基于度量学习的损失相结合,降低计算复杂度,增强模型学习能力。最后,利用训练完成的模型进行声纹识别测试,并与多种深度学习方法下的声纹识别模型比较,等错误率(EER,equalerrorrate)至少降低了8%,等错误率达到了3.229%,表明该模型能够更有效地进行声纹识别。关键词:深度学习;知识蒸馏;声纹识别;说话人识别中图分类号:TP751文献标志码:A文章编号:1000-582X(2023)01-113-012Voiceprintrecognitionbasedonknowledgedistillati...