用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 五 )
扬声器编码器
扬声器编码器从单个扬声器的短语音中获得嵌入向量,该嵌入是扬声器语音的意义表征,而相似的语音在隐空间中接近。
模型架构
扬声器编码器模型是一个三层的 LSTM,有 768 个隐藏节点,之后是一个由 256 个单元的映射层。目前尚无论文解释所谓的映射层是什么,因此根据研究者的判断,这种映射层只是全连接层,分别连接在每个 LSTM 层之后,接收上一个 LSTM 层的输出。为了快速建模,研究人员刚开始使用了有 256 个单元的 LSTM。他们发现,更小模型的效果极好。目前他们尚无时间去训练一个更大的模型。
扬声器编码器在扬声器验证任务上接受训练。扬声器验证是一种典型的生物鉴定应用,通过鉴定人声判定人的身份。通过从人的一些话语中获取扬声器嵌入,进而可以创建此人的模板。这个过程被称为登入(enrollment)。在运行过程中,用户说出一些话,并且系统会对这段话语的嵌入与已登入的扬声器嵌入进行比较。如果两个嵌入向量的相似度超过给定的阈值,则用户验证成功。GE2E loss 模拟这一过程,作为模型的目标函数。
推荐阅读
- 网易游戏|网易游戏的策划半夜三点给玩家打电话:我是海马濑人!
- edg战队|崩坏3女武神来电让玩家社死,接电话被未婚妻听见:琪亚娜是谁?
- 手机游戏|LOL手游突袭上线,王者荣耀被打个措手不及?白送1000点券真香
- 剑三|剑三怀旧服团长太命苦,只是上游戏打个BOSS,就被老婆揍崩心态
- 武当|天龙怀旧服气武当崛起,打个比方:5级气武当相当于60万血牛
- blg|“管泽元退出预测界”,WE干碎BLG,微笑怒打电话警告管泽元
- 绝地求生|原神:这是在玩绝地求生?稻妻地图全程跑毒圈,时不时还得停下来打个药!
- 天谕|PDD探秘“女仆店”,粉丝戏称董卓酒池肉林,中途还打电话给UZI
- pdd|PDD体验顶级女仆店!“选妃环节”格外欢乐,电话邀请UZI却遭拒绝
- 地下城与勇士|DNF:赛丽亚,不要给我打电话,我怕希曼误会