谷歌用新的语音数据扩增技术大幅提升语音识别准确率( 四 )
新的音频数据扩增方法 SpecAugment
对于传统语音识别系统 , 音频波形在输入网络之前通常都需要编码为某种视觉表示 , 比如编码为光谱图 。 而传统的语音数据扩增方法一般都是在编码为光谱图之前进行的 , 这样每次数据扩增之后都要重新生成新的光谱图 。 在这项研究中 , 作者们尝试就在光谱图上进行数据扩增 。 由于直接作用于网络的输入特征 , 数据扩增过程可以在网络的训练过程中运行 , 而且不会对训练速度造成显著影响 。
音频波形(时间-振幅)关系转化为梅尔频谱图(时间-梅尔频率) , 然后再输入网络
SpecAugment 对光谱图的修改方式有:沿着时间方向扭曲 , 遮蔽某一些频率段的信号 , 以及遮蔽某一些时间段的发音 。 作者们选择使用的这些扩增方式可以帮助网络面对时间方向的变形、部分频率信号的损失以及部分时间段的信号缺失时更加鲁棒 。 这些扩增策略的示意图如下 。
图中的梅尔频谱图经过了时间方向扭曲、多个频率段信号遮蔽(横条)以及多个时间段遮蔽(纵向条) 。 图中的遮蔽程度有所夸张 。
推荐阅读
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- ag战队|一诺果真AG“亲儿子”,赛后语音曝光:月光强令一诺做最终决策,网友吐槽难怪输那么惨
- 王者荣耀|王者荣耀:异界灵契技能特效升级优化,拒霜思语音二选一,上官婉儿或获得亚运会专属
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 使命|三国杀:最新的送给你一个老武将,国战将进入基本场,终于做人了
- 三国杀|三国杀:神棍周群上线,新的阎王爷来啦,这么离谱的技能你怎么看
- 国服|fgo国服11月1日周任务详解 备战新的主线断章 解锁获取圣晶石
- 原神|AG赛前语音曝光,猫神自黑玩梗求血包,语气卑微让人心疼
- 地下城与勇士|DNF:韩服第1个跨界石出炉,土豪花900R拿下,新的摸金圣地成了
- ag战队|AG局内语音曝光,一诺再也不用指挥了,最初一句话拯救队伍
- 高渐离|新的版本答案又来了,橘子异军突起,这个法师有了一席之地