AI诈骗电话克隆声音,这个CEO被骗173万( 六 )

视频演示

该系统由三个经过独立训练的组件组成:

speaker encoder网络

基于Tacotron 2的序列到序列合成网络,其以语音嵌入为条件,从文本生成mel频谱;

一个自动回归的基于WaveNet的声码器,它将mel频谱图转换为一系列时域波形样本。

Speaker Encoder是谷歌之前提出的说话人鉴别网络,该深度网络单独预训练,训练语料使用大量的说话人音频,不需要对应文本,且音频可以充满噪音,该部分网络输出固定大小的speaker embedding,说话人向量就编码了说话人的声音特征。

这项研究证明了所提出的模型能够将由经过判别训练的说话者编码器学习的说话者可变性的知识传递给多语言TTS任务,并且在看不到说话者的情况下能够从训练期间合成自然语音。

最后,我们证明随机抽样的speaker embedding可以用来合成新说话人语音中的语音,这表明该模型获得了高质量的说话人表示。

论文地址:https://papers.nips.cc/paper/7700-transfer-learning-from-speaker-verification-to-multispeaker-text-to-speech-synthesis.pdf

推荐阅读