用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 四 )

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图3/18

当然,作者开源的目的肯定不是为了助长犯罪。技术都具有两面性,我们能做的就是提高自己的隐私意识,不要轻易透露自己的各种信息。

谷歌的 SV2TTS 是什么?

SV2TTS 是一种三段式深度学习框架,允许人们从几秒钟的音频中创建语音的数字表征,文字转语音模型使用数字表征进行训练并生成新的语音。

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图4/18

图 7:推理过程中的 SV2TTS 框架。蓝色方块:改进的 Tacotron 架构能够对语音进行调节。

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图5/18

图 8:SV2TTS 的三段式训练流程(根据研究实现)。具有实体轮廓线的模型被冻结。值得注意的是,模型使用不同的参数创建梅尔声谱图(mel spectrograms),作为扬声器编码器和声音合成器的输入。

推荐阅读