用AI打个电话骗走22万欧元，克隆你的语音只需5秒录音( 六 )_摘要：用AI打电话真的可以骗到钱？是的

图6/18

图 9：训练期间构建相似度矩阵的过程。

图7/18

图 10：计算一段完整话语的嵌入向量。d-vector 是该扬声器编码器模型的非归一化输出。

实验

为了避免从语音中采样时出现基本无声的音频片段，研究者使用 webrtcvad Python 包执行语音活动检测（VAD）。这将在音频上产生一个二进制标志，用来表示片段有无声音。他们在这个二进制标志上执行一个移动平均数，从而使检测中的短峰值（short spike）趋于平滑，然后再次对其进行二值化。最后，他们扩展了内核大小为 s 1 的标志，其中 s 表示所允许的最大沉默持续时间。之后，研究者对音频的无声部分进行修剪。结果发现，值 s =0.2s 时是一个好的选择，能够保持自然的语音韵律。具体过程如图 11 所示。应用于音频波形的最后一个预处理步骤是归一化（normalization），用于弥补数据集中扬声器产生的不同的音量。