用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 十 )

图13/18

表 4:参考语音持续时间的影响。在 VCTK 数据集上进行评估。

研究者观察到,该模型在非正式听力测试中生成了正确输出,但正式评估需要设置主观分数投票(subjective score poll)来获得主观平均得分(MOS)。但对于合成器来说,人们还可以验证注意力模块是否生成了正确的对齐方式。示例见图 17:

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图14/18

图 17:(左)编码器步骤和解码器步骤之间的数轴对应;(右)GTA 预测声谱图和 ground truth 声谱图之间的比较。

通过计算合成语音的嵌入并利用 UMAP 将它们与 ground truth 嵌入共同映射,研究者能够进一步观察一些语音特征随 Griffin-Lim 算法丧失。示例见图 18:

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

推荐阅读