简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”( 七 )

总结,利用改变频谱图的方式扩增音频数据样本,训练出的 ASR 模型表现极佳,优于现有最好模型,甚至超过引入语言模型,很好用。

-End-

参考:

语料库:

http://www.openslr.org/12/

https://catalog.ldc.upenn.edu/LDC97S62

文献:

https://arxiv.org/pdf/1508.01211.pdf

https://arxiv.org/abs/1904.08779

https://arxiv.org/pdf/1904.03288.pdf

https://arxiv.org/pdf/1810.11352.pdf

https://arxiv.org/pdf/1805.03294.pdf

https://arxiv.org/pdf/1609.03193.pdf

http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf

推荐阅读