谷歌用新的语音数据扩增技术大幅提升语音识别准确率( 六 )

借助 SpecAugment 取得前所未有的模型表现

由于 SpecAugment 可以带来没有过拟合的表现提升 , 研究人员们甚至可以尝试使用更大容量的网络 , 得到表现更好的模型 。 论文作者们进行了实验 , 在使用 SpecAugment 的同时 , 使用参数更多的模型、更长的训练时间 , 他们分别在 LibriSpeech 960h 和 Switchboard 300h 两个数据集上都大幅刷新了此前的最佳表现记录(SOTA) 。

作者们也为这种方法的出色表现感到惊讶 , 甚至于 , 以往在 LibriSpeech和 Switchboard 这样较小的数据集上有优势的传统语音识别模型也不再领先 。

借助语言模型再上一层楼?甚至都不需要

自动语音识别模型的表现还可以通过语言模型进一步提高 。 在大量纯文本数据上训练出的语言模型可以学到一些语言规律 , 然后用它来更正、优化语音识别模型的输出 。 不过 , 语言模型通常需要独立于语音识别模型训练 , 而且模型的体积很大 , 很难在手机之类的小型设备上使用 。

推荐阅读