用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 八 )
注意力机制对编码器输出帧进行处理,以生成解码器输入帧。每个解码器输入帧和经过 pre-net 的前一个解码器帧输出级联,使模型实现自回归。这个级联向量通过两个单向 LSTM 层,然后映射到梅尔声图谱帧。级联向量同时映射到一个标量(scalar)上,使网络预测一个值,如果该值超过设定阈值,则停止生成。整个帧序列在转换为梅尔声谱图前通过残差 post-net 传递。体系架构如图 15 所示:
图10/18
图 15:修改版 Tacotron 架构。蓝色方块对应编码器,橙色方块对应解码器。
实验
在 SV2TTS 中,研究者考虑以两个数据集来训练合成器和声码器,它们分别是 LibriSpeech-Clean 和 VCTK(一个由专业设备记录的仅包含 109 位英语母语者的语料库)。VCTK 数据集上的采样率为 48kHz,实验中降至 24kHz,但仍高于 LibriSpeech 数据集上的 16kHz 采样率。研究者发现,就相似性来说,在 LibriSpeech 数据集上训练的合成器生成效果优于 VCTK 数据集,但损失了语音自然度。他们的评估方法是在一个数据集上训练合成器,在另一个数据集上测试。结果如表 3 所示:
推荐阅读
- 网易游戏|网易游戏的策划半夜三点给玩家打电话:我是海马濑人!
- edg战队|崩坏3女武神来电让玩家社死,接电话被未婚妻听见:琪亚娜是谁?
- 手机游戏|LOL手游突袭上线,王者荣耀被打个措手不及?白送1000点券真香
- 剑三|剑三怀旧服团长太命苦,只是上游戏打个BOSS,就被老婆揍崩心态
- 武当|天龙怀旧服气武当崛起,打个比方:5级气武当相当于60万血牛
- blg|“管泽元退出预测界”,WE干碎BLG,微笑怒打电话警告管泽元
- 绝地求生|原神:这是在玩绝地求生?稻妻地图全程跑毒圈,时不时还得停下来打个药!
- 天谕|PDD探秘“女仆店”,粉丝戏称董卓酒池肉林,中途还打电话给UZI
- pdd|PDD体验顶级女仆店!“选妃环节”格外欢乐,电话邀请UZI却遭拒绝
- 地下城与勇士|DNF:赛丽亚,不要给我打电话,我怕希曼误会