MIT脑洞研究：只听6秒语音，就知道你长什么样( 四 )

2019-05-25

在训练完成后，模型在推理过程中才会使用面部解码器恢复人脸图像。

训练过程使用的是AVSpeech数据集，它包含几百万个YouTube视频，超过10万个人物的语音-面部数据。

在具体细节上，研究使用的中每个视频片段开头最多6秒钟的音频，并从中裁剪出人脸面部趋于，调整到224×224像素。

△从原始图像提取特征重建的人脸，以及从声音推测的人脸

之前，也有人研究过声音推测面部特征，但都是从人的声音预测一些属性，然后从数据库中获取最适合预测属性的图像，或者使用这些属性来生成图像。

然而，这种方法存在局限性，需要有标签来监督学习，系统的鲁棒性也较差。

由于人脸图像中面部表情、头部姿态、遮挡和光照条件的巨大变化，想要获得稳定的输出结果，Speech2Face人脸模型的设计和训练变得非常重要。

推荐阅读

上一篇：甘比：香港地价贵瞄准英国称入股恒大胜过自行北上

下一篇：什么是美好生活？拥有有趣灵魂的创意人这样说