用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 六 )
图6/18
图 9:训练期间构建相似度矩阵的过程。
图7/18
图 10:计算一段完整话语的嵌入向量。d-vector 是该扬声器编码器模型的非归一化输出。
实验
为了避免从语音中采样时出现基本无声的音频片段,研究者使用 webrtcvad Python 包执行语音活动检测(VAD)。这将在音频上产生一个二进制标志,用来表示片段有无声音。他们在这个二进制标志上执行一个移动平均数,从而使检测中的短峰值(short spike)趋于平滑,然后再次对其进行二值化。最后,他们扩展了内核大小为 s 1 的标志,其中 s 表示所允许的最大沉默持续时间。之后,研究者对音频的无声部分进行修剪。结果发现,值 s =0.2s 时是一个好的选择,能够保持自然的语音韵律。具体过程如图 11 所示。应用于音频波形的最后一个预处理步骤是归一化(normalization),用于弥补数据集中扬声器产生的不同的音量。
推荐阅读
- 网易游戏|网易游戏的策划半夜三点给玩家打电话:我是海马濑人!
- edg战队|崩坏3女武神来电让玩家社死,接电话被未婚妻听见:琪亚娜是谁?
- 手机游戏|LOL手游突袭上线,王者荣耀被打个措手不及?白送1000点券真香
- 剑三|剑三怀旧服团长太命苦,只是上游戏打个BOSS,就被老婆揍崩心态
- 武当|天龙怀旧服气武当崛起,打个比方:5级气武当相当于60万血牛
- blg|“管泽元退出预测界”,WE干碎BLG,微笑怒打电话警告管泽元
- 绝地求生|原神:这是在玩绝地求生?稻妻地图全程跑毒圈,时不时还得停下来打个药!
- 天谕|PDD探秘“女仆店”,粉丝戏称董卓酒池肉林,中途还打电话给UZI
- pdd|PDD体验顶级女仆店!“选妃环节”格外欢乐,电话邀请UZI却遭拒绝
- 地下城与勇士|DNF:赛丽亚,不要给我打电话,我怕希曼误会