用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音(11)

图15/18

图 18:ground truth 嵌入的映射以及由相同 ground truth 嵌入生成的 Griffin-Lim 算法合成语音嵌入的映射。Ground truth 嵌入用圆圈表示,合成嵌入用叉号表示。

声码器

在 SV2TTS 和 Tacotron2 中,WaveNet 是声码器。自推出以来,WaveNet 一直都是音频深度学习的核心,并在 TTS 的语音自然性方面保持当前最优水平。但是,WaveNet 也是推理时速度最慢的实用型深度学习架构。之后的研究对这方面进行了改进,使生成速度接近或快于实时速度,生成语音的质量则几乎没有影响。尽管如此,WaveNet 在 SV2TTS 中依然作为声码器,因为速度不是主要的考虑因素,并且 Google 自己的 WaveNet 实现进行了各种改进,每秒钟能够生成 8,000 个样本。这与 Vanilla WaveNet 形成对比,后者每秒最多能够生成 172 个步骤。在撰写本文时,WaveNet 的大多数开源实现依然是 Vanilla 实现。

模型架构

在 WaveRNN 中,WaveNet 的全部 60 个卷积被一个 GRU 层替代。WaveNet 的 MOS 值为 4.51 ± 0.08,而最佳的 WaveRNN 模型的 MOS 值为 4.48 ± 0.07。模型输入的是由合成器生成的 GTA met 声谱图,以 ground truth 音频为目标。模型在训练时预测固定大小的波形片段。在粗精方案(coarse-fine scheme)中,WaveRNN 的前向传递通过 N = 5 的矩阵向量乘积来实现,其中首先对 16 位目标样本的较低 8 位(粗)进行预测,然后据此对较高 8 位(精)的预测进行调整。预测包含对输出进行采样的分布参数。

推荐阅读