用AI打个电话骗走22万欧元，克隆你的语音只需5秒录音(12)_摘要：用AI打电话真的可以骗到钱？是的

图16/18

图 19：张量的批采样。注意，折叠张量在两段的交接处出现重叠。

备选的 WaveRNN 是研究者所使用的架构。由于该架构缺少相关文档或论文，研究者依赖源代码和图 20 中的图表来理解其内部运行原理。

图17/18

图 20：备选的 WaveRNN 架构。

实验

在处理短话语时，声码器的运行速度通常低于实时速度。推理速度高度依赖于批采样过程中的折叠次数。事实上，就折叠次数而言，声码器网络几乎是在恒定时间内运行，并且随着折叠次数的增加，时间只有少量增加。研究者发现讨论阈值持续时间更加简单，超过该阈值持续时间则模型实时运行。研究者设置的阈值持续时间为 12.5 秒，意味着如果话语短于该阈值，则模型的运行速度将慢于实时速度。在 PyTorch 上，模型性能似乎出人意料地随环境因素（如操作系统）而变化，所以研究者展示了单个相同配置下的结果。