用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 三 )

去年 6 月,谷歌科学家在 arXiv 上发布了一篇用迁移学习完成语音合成的论文,提出了一个名为 Speaker Verification to Multispeaker Text-To-Speech(简称 SV2TTS)的框架。它是一个用于零样本(zero-shot)语音克隆的框架,只需要 5 秒钟的参照语音。也就是说,如果你的录音泄露出去,哪怕只有一小段,也很有可能会被坏人利用。

这项全新的语音合成技术能够通任意一段参考音频中提取出说话者的声纹信息,并生成与其相似度极高的合成语音,参考音频与最终合成的语音甚至不必是同一种语言。除了利用参考音频作为输入外,该技术还能随机生成虚拟的声线,以「不存在的说话者」的声音进行语音合成。

近日,来自比利时列日大学的研究人员复现了该框架并开源了他们的实现,还提供 GitHub 开源工具箱。他们采用了一个新的声码器模型来调整框架,使其能够实时运行。

GitHub 地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning

论文:https://puu.sh/DHgBg.pdf

推荐阅读