简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”( 六 )

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图4/7

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同模型的表现(来源:Daniel S. Park,et al/ Google Brain)

2)优于利用语言模型的 ASR 模型

引入利用大量纯文本语料库训练的语言模型(Language Models,LMs)能够使 ASR 模型效果大大提升,因为可以用语料库中的大量信息使模型功能更强,这也是 ASR 任务的一个通用做法。语言模型一般是独立训练的,使用 ASR 模型时需要占据一定内存进行存储,这使其难以在小型设备上应用。而 SpecAugment 模型的优势是,即使不利用语言模型也优于现有引入语言模型的 ASR 模型。这意味着语言模型的大内存问题,有了解决之路。

简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”

图5/7

图 | LibriSpeech 960h 和 Switchboard 300h 数据集上不同 ASR 模型引入语言模型有否的表现(来源:Daniel S. Park,et al/ Google Brain)

推荐阅读