图源网络1概述语音识别技术,也称自动语音识别AutomaticSpeechRecognition(ASR),是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言,从而把语音信号转变为相应的文本或命令,是实现人机交互的重要桥梁。语音识别包括两个步骤:训练和识别。训练是指对收集到的海量语音数据集通过信号处理和知识挖掘获取“声学模型”和“语言模型”过程。识别则是通过进行端点检测、降噪、特征提取,利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别,也称为解码过程,从而得到语音中包含的文字信息。基于SpeechBrain的语音识别在语音问答中的应用探索李丹1,2(1桂林师范高等专科学校,广西桂林541199;2桂林信息科技学院,广西桂林541004)作者简介:李丹,硕士,高级实验师,研究方向为计算机应用技术。基金项目:2019年度广西高校中青年教师科研基础能力提升项目(2019KY1032)。语音识别技术方案大多都是以语音为基础的,包括发音模型,声学模型和语言模型等。语音识别模型历经三个阶段,从最初的基于GMM-HMM的模型,发展到基于DNN-HMM深度神经网络模型,再到现在的端到端语音识别模型。常见的端对端模型有CTC、RNN-T、atttention-basedencoder-decoder、LAS等模型。语音识别技术的发展,是人工智能改变大众生活的重要一环,其识别率越来越高,应用领域也越来越广泛。文章基于SpeechBrain语音识别在语音问答中的应用进行探索,取得一定效果。2SpeechBrain语音识别简介开发者常用的语音工具主要有Kaldi、ESPNet、CMUSphinx、HTK等,它们各有各的不足之处。比如Kaldi依赖大量的脚本语言,其核心算法是用C++编写的,当需要改变各种神经网络结构时,开发者往往调试起来非常困难和复杂。秉承着让语音开发够简单、够灵活、对用户友好的宗旨,SpeechBrain诞生了。SpeechBrain是一个基于PyTorch的开源和一体化语音工具包。在语音识别技术上,支持端到端的语音识别的方法,支持具有微调功能的wav2vec2.0预训练模型。它具有易于定制的神经网络模型,包括RNNLM和TransformerLM模型,具有混合连接时序分类CTC和注意力机制的端到端自动语音识别ASR。除了提供从头开始训练模型外,SpeechBrain还在语音识别把语音信号转变为相应的文本或命令,是实现人机交互的重要桥梁,文章探索性使用了基于SpeechBrain的语音识别,结合语音唤醒、语音录制和文字转语音技术,实现了一个简易的语音问答系统,并取得一定效果。34科技视界Science&TechnologyVisionAPPLI...