MIT脑洞研究：只听6秒语音，就知道你长什么样( 五 )_CSAIL所在的MITBuilding32钛媒体注：本

一般从输入语音回归到图像的简单方法不起作用，模型必须学会剔除数据中许多不相关的变化因素，并隐含地提取人脸有意义的内部表示。

为了解决这些困难，模型不是直接得到人脸图像，而是回归到人脸的低维中间表示。更具体地说，是利用人脸识别模型VGG-Face，并从倒数第二层的网络提取一个4096-D面部特征。

模型的pipeline由两个主要部分组成：

1、语音编码器

语音编码器模块是一个CNN，将输入的语音声谱图转换成伪人脸特征，并预测面部的低维特征，随后将其输入人脸解码器以重建人脸图像。

2、面部解码器

面部解码器的输入为低维面部特征，并以标准形式（正面和中性表情）产生面部图像。

在训练过程中，人脸解码器是固定的，只训练预测人脸特征的语音编码器。语音编码器是作者自己设计和训练的模型，而面部解码器使用的是前人提出的模型。

将实验结果更进一步，Speech2Face还能用于人脸检索。把基于语音的人脸预测结果与数据库中的人脸进行比较，系统将给出5个最符合的人脸照片。

MIT脑洞研究：只听6秒语音，就知道你长什么样( 五 )