国内智能语音行业分析报告( 六 )

国内智能语音行业分析报告

2)语音识别技术原理

声音实际上是一种波,在开始语音识别之前,首先,需要对声音进行静音切除处理,以降低对后续步骤造成的干扰。

国内智能语音行业分析报告

其次,要对声音进行分帧,把声音切成一小段一小段,每一段就是一帧,分帧操作一般不是简单的切开,而是使用移动窗函数来实现,而帧与帧之间一般是有交叠的,如下图所示:

国内智能语音行业分析报告

图中,每帧的长度为25毫秒,每两帧之间有0.2S的交叠,我们一般称之为帧长2秒,帧移0.2秒。

分帧后,语音就变成了很多小段。但波形在时域上几乎没有任何描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,我们把这个过程叫做声学的特征提取。

推荐阅读