语音合成假冒老板电话骗走173万！当事人：真心听不出( 四 )_通话1：叮铃铃~某公司老总：歪~小李子

随着引入了更深的layer的卷积网络模型，这些模型能编码更高维度和可解释的特征（neural style）。从原理上来说，语音克隆就是从neural style算法中汲取灵感，实现一个好的隐空间模型来生成raw audio，并用于进行语音Style Transfer。

在谷歌的NSynth中，对合并两种乐器声音的工作中已经对Style Transfer进行了研究。一般认为voice style transfer更容易评估，语音克隆则更具挑战性，因为语音在模型的隐空间中更难被表征。

通常情况下，目标风格的声音和可能会说出的原声音内容完全不同。为了实现语音克隆，会设计出这样一种模型——该模型能够在更高维信息的隐空间内对语音编码的方式进行修改，并能概括到目标语言风格，而无需在内容语音中可能出现的所有音素（最小语音单元）上进行训练。

上述模型设想，可以简称为voice transfer（CTI技术中一种语音传输方法的设计与实现），它能够让语音助理，拥有所有的不同风格，甚至创造一个拥有自己声音的语音助手。

语音合成假冒老板电话骗走173万！当事人：真心听不出( 四 )