用AI打个电话骗走22万欧元，克隆你的语音只需5秒录音( 八 )_摘要：用AI打电话真的可以骗到钱？是的

注意力机制对编码器输出帧进行处理，以生成解码器输入帧。每个解码器输入帧和经过 pre-net 的前一个解码器帧输出级联，使模型实现自回归。这个级联向量通过两个单向 LSTM 层，然后映射到梅尔声图谱帧。级联向量同时映射到一个标量（scalar）上，使网络预测一个值，如果该值超过设定阈值，则停止生成。整个帧序列在转换为梅尔声谱图前通过残差 post-net 传递。体系架构如图 15 所示：

图10/18

图 15：修改版 Tacotron 架构。蓝色方块对应编码器，橙色方块对应解码器。

实验

在 SV2TTS 中，研究者考虑以两个数据集来训练合成器和声码器，它们分别是 LibriSpeech-Clean 和 VCTK（一个由专业设备记录的仅包含 109 位英语母语者的语料库）。VCTK 数据集上的采样率为 48kHz，实验中降至 24kHz，但仍高于 LibriSpeech 数据集上的 16kHz 采样率。研究者发现，就相似性来说，在 LibriSpeech 数据集上训练的合成器生成效果优于 VCTK 数据集，但损失了语音自然度。他们的评估方法是在一个数据集上训练合成器，在另一个数据集上测试。结果如表 3 所示：