用AI打个电话骗走22万欧元，克隆你的语音只需5秒录音( 五 )_摘要：用AI打电话真的可以骗到钱？是的

扬声器编码器

扬声器编码器从单个扬声器的短语音中获得嵌入向量，该嵌入是扬声器语音的意义表征，而相似的语音在隐空间中接近。

模型架构

扬声器编码器模型是一个三层的 LSTM，有 768 个隐藏节点，之后是一个由 256 个单元的映射层。目前尚无论文解释所谓的映射层是什么，因此根据研究者的判断，这种映射层只是全连接层，分别连接在每个 LSTM 层之后，接收上一个 LSTM 层的输出。为了快速建模，研究人员刚开始使用了有 256 个单元的 LSTM。他们发现，更小模型的效果极好。目前他们尚无时间去训练一个更大的模型。

扬声器编码器在扬声器验证任务上接受训练。扬声器验证是一种典型的生物鉴定应用，通过鉴定人声判定人的身份。通过从人的一些话语中获取扬声器嵌入，进而可以创建此人的模板。这个过程被称为登入（enrollment）。在运行过程中，用户说出一些话，并且系统会对这段话语的嵌入与已登入的扬声器嵌入进行比较。如果两个嵌入向量的相似度超过给定的阈值，则用户验证成功。GE2E loss 模拟这一过程，作为模型的目标函数。