国内智能语音行业分析报告( 五 )_：国内智能语音行业分析报告伴随着人工

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

语音识别系统构建过程整体上包括两大部分：训练和识别。

训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；

而识别过程通常是在线完成的，对用户实时的语音进行自动识别。

识别过程通常又可以分为“前端”和“后端”两大模块：

“前端”模块主要的作用是进行端点检测（去除多余的静音和非说话声）、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别（又称“解码”），得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。目前，各语音识别方案提供方，包括讯飞、百度、云知声、思必驰等，都在提供包括麦克风阵列等硬件在内的整体解决方案，以软硬件结合的方式提高语音识别的精准度的问题。