MIT脑洞研究:只听6秒语音,就知道你长什么样( 四 )
在训练完成后,模型在推理过程中才会使用面部解码器恢复人脸图像。
训练过程使用的是AVSpeech数据集,它包含几百万个YouTube视频,超过10万个人物的语音-面部数据。
在具体细节上,研究使用的中每个视频片段开头最多6秒钟的音频,并从中裁剪出人脸面部趋于,调整到224×224像素。
△从原始图像提取特征重建的人脸,以及从声音推测的人脸
之前,也有人研究过声音推测面部特征,但都是从人的声音预测一些属性,然后从数据库中获取最适合预测属性的图像,或者使用这些属性来生成图像。
然而,这种方法存在局限性,需要有标签来监督学习,系统的鲁棒性也较差。
由于人脸图像中面部表情、头部姿态、遮挡和光照条件的巨大变化,想要获得稳定的输出结果,Speech2Face人脸模型的设计和训练变得非常重要。
推荐阅读
- 哈利·波特|哈利波特手游玩家脑洞有多大?霍格沃茨都开到牧场了!破大防了
- gta三部曲|梦幻西游:129级五开分析师,研究抓鬼任务最优化投入,不浪费一分钱
- 电子竞技|S12或迎来双败制?Riot全球电竞负责人发话:会去仔细研究!
- 世界弹射物语|皇室战争:职业选手研究的英雄卡组,要论机动性,黄金圣骑YYDS
- 新世界|游戏推出一个多月就在研究合服,《新世界》如今情况如何?
- fly|Fly让AG得重新研究对策,终结ES八连胜!留在S组只差AG这一步
- 弈星|职业赛场八连跪,弈星已经被研究透了?这英雄的强度到底如何?
- 原神|原神成为中国文化敲门砖,这群老外甚至因北斗研究起了国产导航
- 小岛秀夫|盘点游戏中的那些恐怖彩蛋,玩家:开发商脑洞真大
- 鲁班|王者荣耀:将王研究出鲁班发育秘诀,网友看后纷纷点赞!