谷歌用新的语音数据扩增技术大幅提升语音识别准确率( 四 )

2019-04-24

新的音频数据扩增方法 SpecAugment

对于传统语音识别系统，音频波形在输入网络之前通常都需要编码为某种视觉表示，比如编码为光谱图。而传统的语音数据扩增方法一般都是在编码为光谱图之前进行的，这样每次数据扩增之后都要重新生成新的光谱图。在这项研究中，作者们尝试就在光谱图上进行数据扩增。由于直接作用于网络的输入特征，数据扩增过程可以在网络的训练过程中运行，而且不会对训练速度造成显著影响。

音频波形（时间-振幅）关系转化为梅尔频谱图（时间-梅尔频率），然后再输入网络

SpecAugment 对光谱图的修改方式有：沿着时间方向扭曲，遮蔽某一些频率段的信号，以及遮蔽某一些时间段的发音。作者们选择使用的这些扩增方式可以帮助网络面对时间方向的变形、部分频率信号的损失以及部分时间段的信号缺失时更加鲁棒。这些扩增策略的示意图如下。

图中的梅尔频谱图经过了时间方向扭曲、多个频率段信号遮蔽（横条）以及多个时间段遮蔽（纵向条）。图中的遮蔽程度有所夸张。

上一页
1
2
3
4
5
6
下一页

推荐阅读

上一篇：PaddlePaddle 中文名「飞桨」重磅公布，百度发布一亿元免费算力计划

下一篇：扫地机器人开年之战：新品初现，战局微调