谷歌用新的语音数据扩增技术大幅提升语音识别准确率( 四 )

新的音频数据扩增方法 SpecAugment

对于传统语音识别系统 , 音频波形在输入网络之前通常都需要编码为某种视觉表示 , 比如编码为光谱图 。 而传统的语音数据扩增方法一般都是在编码为光谱图之前进行的 , 这样每次数据扩增之后都要重新生成新的光谱图 。 在这项研究中 , 作者们尝试就在光谱图上进行数据扩增 。 由于直接作用于网络的输入特征 , 数据扩增过程可以在网络的训练过程中运行 , 而且不会对训练速度造成显著影响 。

音频波形(时间-振幅)关系转化为梅尔频谱图(时间-梅尔频率) , 然后再输入网络

SpecAugment 对光谱图的修改方式有:沿着时间方向扭曲 , 遮蔽某一些频率段的信号 , 以及遮蔽某一些时间段的发音 。 作者们选择使用的这些扩增方式可以帮助网络面对时间方向的变形、部分频率信号的损失以及部分时间段的信号缺失时更加鲁棒 。 这些扩增策略的示意图如下 。

图中的梅尔频谱图经过了时间方向扭曲、多个频率段信号遮蔽(横条)以及多个时间段遮蔽(纵向条) 。 图中的遮蔽程度有所夸张 。

推荐阅读