用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 七 )
图8/18
图 11:从上到下是利用 VAD 消除静音的步骤。橙色线条代表二进制语音标志,轴上面的值表示有声片段,轴下面的值表示无声片段。
图9/18
表 2:扬声器编码器在不同数据集上的训练。LS 表示 LibriSpeech,VC 表示 VoxCeleb。合成器在 LS-Clean 上进行训练并在一个测试集上进行评估。「黑点」标注的行是研究者想要复现的实现对象。
合成器
合成器是移除了 Wavenet 的 Tacotron 2。研究者使用了 Tacotron 2 的一个开源 Tensorflow 实现,从中剥离 Wavenet 并添加了 SV2TTS。
模型架构
Tacotron 是一个循环的序列到序列模型,它能够从文本中预测梅尔声谱图。Tacotron 是编码器-解码器结构(并非 SV2TTS 的扬声器编码器),中间由位置敏感的注意力机制连接。首先,输入为文本序列,其中的字符首先转换为嵌入向量。随后嵌入向量通过卷积层,用于增加单个编码器帧的范围。通过卷积层之后的编码器帧再通过双向 LSTM,生成编码器输出帧。SV2TTS 对架构进行修改的地方在于,这里由扬声器嵌入帧级联编码器输出帧,作为 Tacotron 编码器的输出。
推荐阅读
- 网易游戏|网易游戏的策划半夜三点给玩家打电话:我是海马濑人!
- edg战队|崩坏3女武神来电让玩家社死,接电话被未婚妻听见:琪亚娜是谁?
- 手机游戏|LOL手游突袭上线,王者荣耀被打个措手不及?白送1000点券真香
- 剑三|剑三怀旧服团长太命苦,只是上游戏打个BOSS,就被老婆揍崩心态
- 武当|天龙怀旧服气武当崛起,打个比方:5级气武当相当于60万血牛
- blg|“管泽元退出预测界”,WE干碎BLG,微笑怒打电话警告管泽元
- 绝地求生|原神:这是在玩绝地求生?稻妻地图全程跑毒圈,时不时还得停下来打个药!
- 天谕|PDD探秘“女仆店”,粉丝戏称董卓酒池肉林,中途还打电话给UZI
- pdd|PDD体验顶级女仆店!“选妃环节”格外欢乐,电话邀请UZI却遭拒绝
- 地下城与勇士|DNF:赛丽亚,不要给我打电话,我怕希曼误会