用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 六 )

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图6/18

图 9:训练期间构建相似度矩阵的过程。

用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音

图7/18

图 10:计算一段完整话语的嵌入向量。d-vector 是该扬声器编码器模型的非归一化输出。

实验

为了避免从语音中采样时出现基本无声的音频片段,研究者使用 webrtcvad Python 包执行语音活动检测(VAD)。这将在音频上产生一个二进制标志,用来表示片段有无声音。他们在这个二进制标志上执行一个移动平均数,从而使检测中的短峰值(short spike)趋于平滑,然后再次对其进行二值化。最后,他们扩展了内核大小为 s 1 的标志,其中 s 表示所允许的最大沉默持续时间。之后,研究者对音频的无声部分进行修剪。结果发现,值 s =0.2s 时是一个好的选择,能够保持自然的语音韵律。具体过程如图 11 所示。应用于音频波形的最后一个预处理步骤是归一化(normalization),用于弥补数据集中扬声器产生的不同的音量。

推荐阅读