AI诈骗电话克隆声音,这个CEO被骗173万( 五 )

AI换声只需5秒样本,谷歌项目开源

其实,利用AI克隆一个人的声音也不是什么新鲜事,百度去年就推出了一种新的神经语音克隆系统,只从少数音频样本中就能合成一个人的声音。

谷歌旗下的加拿大公司Lyrebird,只需一分钟音频即可生成与用户语音特征高度相似的数字语音。

谷歌也发表过一篇题为“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis” (SV2TTS) 的论文,描述了一种用于文本到语音(TTS)合成的基于神经网络的系统,该系统能够以许多不同发言者的声音产生语音音频。

AI诈骗电话克隆声音,这个CEO被骗173万

图3/3

SV2TTS是一个三阶段的深度学习框架,可以从几秒钟的音频中创建语音的数字表示,并使用它来调节文本到语音的模型,该模型经过训练可归纳为新的语音。也就是说,只需5秒钟的音频样本,就可以克隆一个人的声音。

推荐阅读