简单粗暴而有效的改图：自动语音识别数据扩增的“一条野路”( 三 )_图1

SpecAugment 的“出彩”之处

首先，在模型训练之前将输入数据——音频数据的梅尔倒谱，进行图像处理，这也是 SpecAugment 这条野路出彩的基础。即对梅尔倒频谱的横轴一段时间步长的频谱进行左或右扭转翘曲、或者掩蔽一段时长的谱图（时间屏蔽，对纵向进行掩蔽）、或是某些梅尔频率的信号（频率屏蔽，对横向进行掩蔽），得到了一系列的扩增样本。

这样的处理使得模型能够学习到时间轴上发生损失变形的音频、部分频率缺失的音频，以及丢失部分语音片段的音频的特点，增加了训练模型对这些信息的处理能力，也增强模型的泛化能力。

图2/7

图 | 梅尔倒频谱的扩增变换手段：从上到下依次为没有应用增强、一定时间步长的扭曲，频率屏蔽和时间屏蔽。（来源：Daniel S. Park，et al/ Google Brain）

模型训练

输入数据处理完毕后，训练语音识别模型，这里采用 LAS（Listen Attend and Spell networks）模型。LAS 模型主要是由 Listener 和 Speller 两个子模型组成，其中 Listener 是一个声学编码器（Encoder，收集数据，相当于“听”），Speller 是一个基于注意力机制的解码器（Decoder，将收集的特征翻译成字符，相当于“说”）