2023年8月陕西理工大学学报(自然科学版)Aug.2023第39卷第4期JournalofShaanxiUniversityofTechnology(NaturalScienceEdition)Vol.39No.4引用格式:黄喜阳ꎬ杜庆治ꎬ龙华ꎬ等.基于MFCC特征融合的语音情感识别算法[J].陕西理工大学学报(自然科学版)ꎬ2023ꎬ39(4):17 ̄25.基于MFCC特征融合的语音情感识别算法黄喜阳ꎬ杜庆治∗ꎬ龙华ꎬ邵玉斌昆明理工大学信息工程与自动化学院ꎬ云南昆明650504摘要:在目前语音情感识别中ꎬ采用单一梅尔倒谱系数(MFCC)频谱的方法不能完全体现语音中所包含的情感特性ꎬ而多特征融合容易导致维数过大ꎮ提出了一种融合MFCC及其差分频谱的双向长短时记忆网络结合卷积神经网络(Bi ̄LSTM ̄CNN)的语音情感识别算法ꎮ首先提取语音信号的MFCC特征ꎬ并进行差分运算得到一阶、二阶差分特征提取频谱ꎬ再采用主成分分析法分别获取3个频谱中贡献度较高的维度组成新的频谱ꎬ达到降维目的ꎬ并将降维后的3个特征频谱从上到下依次进行堆叠ꎬ得到动、静结合的MFCC差分融合频谱ꎮ训练阶段Bi ̄LSTM ̄CNN模型从特征融合频谱中学习语音情感特性ꎬ并采用稀疏交叉熵法得到最优结果ꎮ实验结果表明在RAVDESS数据集上准确率为81.32%ꎬ在EMO ̄DB数据集上对情感识别的准确率为85.51%ꎬ比主流情感识别模型的准确率提高了4.85%ꎮ关键词:语音情感识别ꎻ主成分分析法ꎻ双向长短时记忆网络ꎻMFCC差分融合频谱ꎻ深度学习中图分类号:TN912.34文献标识码:A文章编号:2096 ̄3998(2023)04 ̄0017 ̄09收稿日期:2023 ̄02 ̄27修回日期:2023 ̄05 ̄09基金项目:云南省媒体融合重点实验室开放项目(320225403)∗通信作者:杜庆治(1977—)ꎬ男ꎬ云南楚雄人ꎬ高级实验师ꎬ主要研究方向为通信工程、信息系统、网络安全ꎮ情感信息在语音信号中也是一种很重要的信息资源ꎬ对于说话人情感的分析有很重要的研究意义ꎮ通常语音情感分为七大类ꎬ分别是生气(anger)、害怕(fear)、无聊(boredom)、厌恶(disgust)、高兴(hap ̄piness)、中性(netral)、悲伤(sadness)ꎮ当相同内容的话ꎬ说话人当时情...