用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音(11)
图15/18
图 18:ground truth 嵌入的映射以及由相同 ground truth 嵌入生成的 Griffin-Lim 算法合成语音嵌入的映射。Ground truth 嵌入用圆圈表示,合成嵌入用叉号表示。
声码器
在 SV2TTS 和 Tacotron2 中,WaveNet 是声码器。自推出以来,WaveNet 一直都是音频深度学习的核心,并在 TTS 的语音自然性方面保持当前最优水平。但是,WaveNet 也是推理时速度最慢的实用型深度学习架构。之后的研究对这方面进行了改进,使生成速度接近或快于实时速度,生成语音的质量则几乎没有影响。尽管如此,WaveNet 在 SV2TTS 中依然作为声码器,因为速度不是主要的考虑因素,并且 Google 自己的 WaveNet 实现进行了各种改进,每秒钟能够生成 8,000 个样本。这与 Vanilla WaveNet 形成对比,后者每秒最多能够生成 172 个步骤。在撰写本文时,WaveNet 的大多数开源实现依然是 Vanilla 实现。
模型架构
在 WaveRNN 中,WaveNet 的全部 60 个卷积被一个 GRU 层替代。WaveNet 的 MOS 值为 4.51 ± 0.08,而最佳的 WaveRNN 模型的 MOS 值为 4.48 ± 0.07。模型输入的是由合成器生成的 GTA met 声谱图,以 ground truth 音频为目标。模型在训练时预测固定大小的波形片段。在粗精方案(coarse-fine scheme)中,WaveRNN 的前向传递通过 N = 5 的矩阵向量乘积来实现,其中首先对 16 位目标样本的较低 8 位(粗)进行预测,然后据此对较高 8 位(精)的预测进行调整。预测包含对输出进行采样的分布参数。
推荐阅读
- 网易游戏|网易游戏的策划半夜三点给玩家打电话:我是海马濑人!
- edg战队|崩坏3女武神来电让玩家社死,接电话被未婚妻听见:琪亚娜是谁?
- 手机游戏|LOL手游突袭上线,王者荣耀被打个措手不及?白送1000点券真香
- 剑三|剑三怀旧服团长太命苦,只是上游戏打个BOSS,就被老婆揍崩心态
- 武当|天龙怀旧服气武当崛起,打个比方:5级气武当相当于60万血牛
- blg|“管泽元退出预测界”,WE干碎BLG,微笑怒打电话警告管泽元
- 绝地求生|原神:这是在玩绝地求生?稻妻地图全程跑毒圈,时不时还得停下来打个药!
- 天谕|PDD探秘“女仆店”,粉丝戏称董卓酒池肉林,中途还打电话给UZI
- pdd|PDD体验顶级女仆店!“选妃环节”格外欢乐,电话邀请UZI却遭拒绝
- 地下城与勇士|DNF:赛丽亚,不要给我打电话,我怕希曼误会