用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 七 )

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图8/18

图 11:从上到下是利用 VAD 消除静音的步骤。橙色线条代表二进制语音标志,轴上面的值表示有声片段,轴下面的值表示无声片段。

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图9/18

表 2:扬声器编码器在不同数据集上的训练。LS 表示 LibriSpeech,VC 表示 VoxCeleb。合成器在 LS-Clean 上进行训练并在一个测试集上进行评估。「黑点」标注的行是研究者想要复现的实现对象。

合成器

合成器是移除了 Wavenet 的 Tacotron 2。研究者使用了 Tacotron 2 的一个开源 Tensorflow 实现,从中剥离 Wavenet 并添加了 SV2TTS。

模型架构

Tacotron 是一个循环的序列到序列模型,它能够从文本中预测梅尔声谱图。Tacotron 是编码器-解码器结构(并非 SV2TTS 的扬声器编码器),中间由位置敏感的注意力机制连接。首先,输入为文本序列,其中的字符首先转换为嵌入向量。随后嵌入向量通过卷积层,用于增加单个编码器帧的范围。通过卷积层之后的编码器帧再通过双向 LSTM,生成编码器输出帧。SV2TTS 对架构进行修改的地方在于,这里由扬声器嵌入帧级联编码器输出帧,作为 Tacotron 编码器的输出。

推荐阅读