简单粗暴而有效的改图：自动语音识别数据扩增的“一条野路”( 五 )_图1

图 | 扩增训练集与否的两个模型在数据集 LibriSpeech 上有噪音测试集和无噪音测试集的表现。（来源：Daniel S. Park，et al/ Google Brain）

对于过拟合问题，虽然训练集上利用扩增的模型表现与无扩增相差并不是很多，但在开发集上，WER 有明显的降低，说明模型泛化能力提升，可以预测未训练过的数据，过拟合得到解决。

图 | 扩增训练集与否的两个模型在训练集、有噪音开发集和无噪音开发集集上的表现（来源：Daniel S. Park，et al/ Google Brain）

这个模型啥水平？

1）优于现有最佳 ASR 模型

扩增训练集后调整模型参数以及适当训练迭代，使得模型表现达到最佳，在数据集 LibriSpeech 960h 和 Switchboard 300h 有无噪音的测试集上，扩增模型表现与现有最佳模型的错词率结果对比发现，扩增方法明显取胜。无论是传统 ASR 模型（如 HMM）还是端到端的神经网络模型（如 CTC/ASG），采用 SpecAugment 方法训练后的 LAS 模型表现都明显更好。