用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 九 )

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图11/18

表 3:对未见的扬声器的生成声音的自然度和与扬声器相似性进行跨数据集评估。

数据集上语音片段长度的分布如图 16 所示。注意,无声状态持续时间为 64 小时(13.7%)。

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图12/18

图 16:(左)LibriSpeech-Clean 数据集上话语持续时间直方图;(中):无声状态打破后持续时间直方图;(右)限制语音片段长度和重新调整后的持续时间直方图。

虽然参考语音的「最佳」持续时间为 5 秒,但参考语音长度仅为 2 秒时,嵌入向量就可以显示出意义,如表 4 所示。

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

推荐阅读