语音合成假冒老板 电话骗走173万!当事人:真心听不出( 四 )

随着引入了更深的layer的卷积网络模型,这些模型能编码更高维度和可解释的特征(neural style)。从原理上来说,语音克隆就是从neural style算法中汲取灵感,实现一个好的隐空间模型来生成raw audio,并用于进行语音Style Transfer。

在谷歌的NSynth中,对合并两种乐器声音的工作中已经对Style Transfer进行了研究。一般认为voice style transfer更容易评估,语音克隆则更具挑战性,因为语音在模型的隐空间中更难被表征。

通常情况下,目标风格的声音和可能会说出的原声音内容完全不同。为了实现语音克隆,会设计出这样一种模型——该模型能够在更高维信息的隐空间内对语音编码的方式进行修改,并能概括到目标语言风格,而无需在内容语音中可能出现的所有音素(最小语音单元)上进行训练。

语音合成假冒老板 电话骗走173万!当事人:真心听不出

上述模型设想,可以简称为voice transfer(CTI技术中一种语音传输方法的设计与实现),它能够让语音助理,拥有所有的不同风格,甚至创造一个拥有自己声音的语音助手。

推荐阅读