用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音(12)

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图16/18

图 19:张量的批采样。注意,折叠张量在两段的交接处出现重叠。

备选的 WaveRNN 是研究者所使用的架构。由于该架构缺少相关文档或论文,研究者依赖源代码和图 20 中的图表来理解其内部运行原理。

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图17/18

图 20:备选的 WaveRNN 架构。

实验

在处理短话语时,声码器的运行速度通常低于实时速度。推理速度高度依赖于批采样过程中的折叠次数。事实上,就折叠次数而言,声码器网络几乎是在恒定时间内运行,并且随着折叠次数的增加,时间只有少量增加。研究者发现讨论阈值持续时间更加简单,超过该阈值持续时间则模型实时运行。研究者设置的阈值持续时间为 12.5 秒,意味着如果话语短于该阈值,则模型的运行速度将慢于实时速度。在 PyTorch 上,模型性能似乎出人意料地随环境因素(如操作系统)而变化,所以研究者展示了单个相同配置下的结果。

推荐阅读