用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 八 )

注意力机制对编码器输出帧进行处理,以生成解码器输入帧。每个解码器输入帧和经过 pre-net 的前一个解码器帧输出级联,使模型实现自回归。这个级联向量通过两个单向 LSTM 层,然后映射到梅尔声图谱帧。级联向量同时映射到一个标量(scalar)上,使网络预测一个值,如果该值超过设定阈值,则停止生成。整个帧序列在转换为梅尔声谱图前通过残差 post-net 传递。体系架构如图 15 所示:

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图10/18

图 15:修改版 Tacotron 架构。蓝色方块对应编码器,橙色方块对应解码器。

实验

在 SV2TTS 中,研究者考虑以两个数据集来训练合成器和声码器,它们分别是 LibriSpeech-Clean 和 VCTK(一个由专业设备记录的仅包含 109 位英语母语者的语料库)。VCTK 数据集上的采样率为 48kHz,实验中降至 24kHz,但仍高于 LibriSpeech 数据集上的 16kHz 采样率。研究者发现,就相似性来说,在 LibriSpeech 数据集上训练的合成器生成效果优于 VCTK 数据集,但损失了语音自然度。他们的评估方法是在一个数据集上训练合成器,在另一个数据集上测试。结果如表 3 所示:

推荐阅读