国内智能语音行业分析报告( 六 )

2019-08-10

2）语音识别技术原理

声音实际上是一种波，在开始语音识别之前，首先，需要对声音进行静音切除处理，以降低对后续步骤造成的干扰。

其次，要对声音进行分帧，把声音切成一小段一小段，每一段就是一帧，分帧操作一般不是简单的切开，而是使用移动窗函数来实现，而帧与帧之间一般是有交叠的，如下图所示：

图中，每帧的长度为25毫秒，每两帧之间有0.2S的交叠，我们一般称之为帧长2秒，帧移0.2秒。

分帧后，语音就变成了很多小段。但波形在时域上几乎没有任何描述能力，因此必须将波形作变换，常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，这个向量包含了这帧语音的内容信息，我们把这个过程叫做声学的特征提取。

推荐阅读

上一篇：华为视频“百花号：三重升级协同亿级资源扶持视频内容生态

下一篇：养老生活新体验，致友泰宁养老院举办开放日活动！