简单粗暴而有效的改图：自动语音识别数据扩增的“一条野路”

2019-05-02

图1/7

神经网络的调参无疑是一个巨大的工程。

如何在调参之前拥有更佳的表现？千辛万苦调好了但却过拟合，如何拥有更好的泛化能力？这无疑是人肉调参的必经之痛。一个通用的认知是，训练数据会限制模型表现的上限，能拥有更好的训练数据，无疑成功了一大截儿。

近日，Daniel S. Park 等人在自动语音识别（Automatic Speech Recognition，ASR）模型训练上，找到了一种简单却强大的数据增强方法——SpecAugment。该操作另辟蹊径，将原始语音数据生成的梅尔倒谱图直接进行图像变换，扩增训练数据，化腐朽为神奇，结果很棒。

啥是自动语音识别

自动语音识别，即依托深度神经网络模型将语音自动识别为文本输入，无论是 Siri 助手还是微软小冰，抑或占据生活一部分的微信，都有它的身影，相信这个时代的你也早已习惯用语音转输入解放双手。

推荐阅读

上一篇：一款AI芯片惊艳亮相亚马逊神秘大会，麻省理工挑战未来AI硬件

下一篇：愚人节玩笑成真：雷蛇计划推出“烤面包机”