MIT脑洞研究:只听6秒语音,就知道你长什么样( 三 )
为此,研究人员提取了几百万个YouTube视频,通过训练,让深度神经网络学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等,并还原出相貌。
而且在这个过程中,不需要人类标记视频,由模型自我监督学习。这就是文章中所说的Speech2Face模型。
将电话另一端通过卡通人物的方式显示在你的手机上,可能是Speech2Face未来的一种实际应用。
模型结构
Speech2Face模型是如何还原人脸的,请看下图:
给这个网络输入一个复杂的声谱图,它将会输出4096-D面部特征,然后使用预训练的面部解码器将其还原成面部的标准图像。
训练模块在图中用橙色部分标记。在训练过程中,Speech2Face模型不会直接用人脸图像与原始图像进行对比,而是与原始图像的4096-D面部特征对比,省略了恢复面部图像的步骤。
推荐阅读
- 哈利·波特|哈利波特手游玩家脑洞有多大?霍格沃茨都开到牧场了!破大防了
- gta三部曲|梦幻西游:129级五开分析师,研究抓鬼任务最优化投入,不浪费一分钱
- 电子竞技|S12或迎来双败制?Riot全球电竞负责人发话:会去仔细研究!
- 世界弹射物语|皇室战争:职业选手研究的英雄卡组,要论机动性,黄金圣骑YYDS
- 新世界|游戏推出一个多月就在研究合服,《新世界》如今情况如何?
- fly|Fly让AG得重新研究对策,终结ES八连胜!留在S组只差AG这一步
- 弈星|职业赛场八连跪,弈星已经被研究透了?这英雄的强度到底如何?
- 原神|原神成为中国文化敲门砖,这群老外甚至因北斗研究起了国产导航
- 小岛秀夫|盘点游戏中的那些恐怖彩蛋,玩家:开发商脑洞真大
- 鲁班|王者荣耀:将王研究出鲁班发育秘诀,网友看后纷纷点赞!