简单粗暴而有效的改图：自动语音识别数据扩增的“一条野路”( 七 )_图1

总结，利用改变频谱图的方式扩增音频数据样本，训练出的 ASR 模型表现极佳，优于现有最好模型，甚至超过引入语言模型，很好用。

-End-

参考：

语料库：

http://www.openslr.org/12/

https://catalog.ldc.upenn.edu/LDC97S62

文献：

https://arxiv.org/pdf/1508.01211.pdf

https://arxiv.org/abs/1904.08779

https://arxiv.org/pdf/1904.03288.pdf

https://arxiv.org/pdf/1810.11352.pdf

https://arxiv.org/pdf/1805.03294.pdf

https://arxiv.org/pdf/1609.03193.pdf

http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf

简单粗暴而有效的改图：自动语音识别数据扩增的“一条野路”( 七 )