用AI打个电话骗走22万欧元，克隆你的语音只需5秒录音( 七 )_摘要：用AI打电话真的可以骗到钱？是的

图8/18

图 11：从上到下是利用 VAD 消除静音的步骤。橙色线条代表二进制语音标志，轴上面的值表示有声片段，轴下面的值表示无声片段。

图9/18

表 2：扬声器编码器在不同数据集上的训练。LS 表示 LibriSpeech，VC 表示 VoxCeleb。合成器在 LS-Clean 上进行训练并在一个测试集上进行评估。「黑点」标注的行是研究者想要复现的实现对象。

合成器

合成器是移除了 Wavenet 的 Tacotron 2。研究者使用了 Tacotron 2 的一个开源 Tensorflow 实现，从中剥离 Wavenet 并添加了 SV2TTS。

模型架构

Tacotron 是一个循环的序列到序列模型，它能够从文本中预测梅尔声谱图。Tacotron 是编码器-解码器结构（并非 SV2TTS 的扬声器编码器），中间由位置敏感的注意力机制连接。首先，输入为文本序列，其中的字符首先转换为嵌入向量。随后嵌入向量通过卷积层，用于增加单个编码器帧的范围。通过卷积层之后的编码器帧再通过双向 LSTM，生成编码器输出帧。SV2TTS 对架构进行修改的地方在于，这里由扬声器嵌入帧级联编码器输出帧，作为 Tacotron 编码器的输出。