用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音( 五 )

扬声器编码器

扬声器编码器从单个扬声器的短语音中获得嵌入向量,该嵌入是扬声器语音的意义表征,而相似的语音在隐空间中接近。

模型架构

扬声器编码器模型是一个三层的 LSTM,有 768 个隐藏节点,之后是一个由 256 个单元的映射层。目前尚无论文解释所谓的映射层是什么,因此根据研究者的判断,这种映射层只是全连接层,分别连接在每个 LSTM 层之后,接收上一个 LSTM 层的输出。为了快速建模,研究人员刚开始使用了有 256 个单元的 LSTM。他们发现,更小模型的效果极好。目前他们尚无时间去训练一个更大的模型。

扬声器编码器在扬声器验证任务上接受训练。扬声器验证是一种典型的生物鉴定应用,通过鉴定人声判定人的身份。通过从人的一些话语中获取扬声器嵌入,进而可以创建此人的模板。这个过程被称为登入(enrollment)。在运行过程中,用户说出一些话,并且系统会对这段话语的嵌入与已登入的扬声器嵌入进行比较。如果两个嵌入向量的相似度超过给定的阈值,则用户验证成功。GE2E loss 模拟这一过程,作为模型的目标函数。

推荐阅读