国内智能语音行业分析报告( 七 )
至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。
再次,就是讲声音向量矩阵变成文本了,在这之前,有两个概念需要给大家先介绍下:
音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,而汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态:比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。了解了概念之后,我们就看一下语音识别是怎么把声音变成文本的,其实就和我们把大象塞进冰箱一样,也是分为三步:
把帧识别成状态(难点);把状态组合成音素;把音素组合成单词。如下图所示:
推荐阅读
- 绝地求生|PGC2021建设场地曝光,NH设立国内观赛区,4AM粉丝真就不看比赛?
- ag战队|一诺果真AG“亲儿子”,赛后语音曝光:月光强令一诺做最终决策,网友吐槽难怪输那么惨
- 王者荣耀|王者荣耀:异界灵契技能特效升级优化,拒霜思语音二选一,上官婉儿或获得亚运会专属
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 盖伦|LOL手游新活动来袭,官方又免费送皮肤,为了国内市场真拼了!
- 原神|AG赛前语音曝光,猫神自黑玩梗求血包,语气卑微让人心疼
- ag战队|AG局内语音曝光,一诺再也不用指挥了,最初一句话拯救队伍
- 驾驶|48支国内外战队72小时对决,这场“拟态防御”挑战赛将现五大看点
- |国内都没上线的游戏,老外倒等不及了,几万人提前学习下载教程
- 手机游戏|LOL手游掌握了流量密码,社交玩法才是国内手游的主旋律?