国内智能语音行业分析报告( 六 )
2)语音识别技术原理
声音实际上是一种波,在开始语音识别之前,首先,需要对声音进行静音切除处理,以降低对后续步骤造成的干扰。
其次,要对声音进行分帧,把声音切成一小段一小段,每一段就是一帧,分帧操作一般不是简单的切开,而是使用移动窗函数来实现,而帧与帧之间一般是有交叠的,如下图所示:
图中,每帧的长度为25毫秒,每两帧之间有0.2S的交叠,我们一般称之为帧长2秒,帧移0.2秒。
分帧后,语音就变成了很多小段。但波形在时域上几乎没有任何描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,我们把这个过程叫做声学的特征提取。
推荐阅读
- 绝地求生|PGC2021建设场地曝光,NH设立国内观赛区,4AM粉丝真就不看比赛?
- ag战队|一诺果真AG“亲儿子”,赛后语音曝光:月光强令一诺做最终决策,网友吐槽难怪输那么惨
- 王者荣耀|王者荣耀:异界灵契技能特效升级优化,拒霜思语音二选一,上官婉儿或获得亚运会专属
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 盖伦|LOL手游新活动来袭,官方又免费送皮肤,为了国内市场真拼了!
- 原神|AG赛前语音曝光,猫神自黑玩梗求血包,语气卑微让人心疼
- ag战队|AG局内语音曝光,一诺再也不用指挥了,最初一句话拯救队伍
- 驾驶|48支国内外战队72小时对决,这场“拟态防御”挑战赛将现五大看点
- |国内都没上线的游戏,老外倒等不及了,几万人提前学习下载教程
- 手机游戏|LOL手游掌握了流量密码,社交玩法才是国内手游的主旋律?