中大|南洋理工大学、港中大Talk-to-Edit，对话实现高细粒度人脸编辑_方向|特征|研究|南洋|对话|隐向

机器之心专栏
南洋理工大学、香港中文大学

来自南洋理工大学、香港中文大学的研究者提出了一个交互式人脸编辑框架 Talk-to-Edit ，可以通过用户和系统之间的对话进行细粒度的属性操作。此外，该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog ，用来促进大规模研究。

想换个发型？想知道自己 20 年后的样子？还在为 P 图却 P 不出想要的效果而发愁吗？来试试这个「Talk-to-Edit」吧，告诉它你想怎么编辑，分分钟帮你搞定。
话不多说，先看图：
用户通过和系统的对话完成人脸编辑：

文章图片

【中大|南洋理工大学、港中大Talk-to-Edit，对话实现高细粒度人脸编辑】对人脸的各个特征进行编辑：

文章图片

编辑各位帅哥美女（用到了 GAN inversion）：

文章图片

文章图片

这项研究来自南洋理工大学、香港中文大学提出的一个交互式人脸编辑框架 Talk-to-Edit ，可以通过用户和系统之间的对话进行细粒度的属性操作。此外，该研究还创建了一个视觉语言人脸编辑数据集 CelebA-Dialog ，用来促进大规模研究。

文章图片

论文地址: https://arxiv.org/abs/2109.04425
Code: https://github.com/yumingj/Talk-to-Edit
Project Page: https://www.mmlab-ntu.com/project/talkedit/index.html
实验室主页：https://www.mmlab-ntu.com

方法及结果
该研究提出的Talk-to-Edit 的 pipeline 如下图所示：

文章图片

该研究用 Semantic Field 来实现对人脸特征连续且高细粒度可控的编辑。对话功能则由 Language Encoder 和 Talk 模块来实现。接下来解释各个模块的工作原理和效果。
（1）Semantic Field
背景：GAN[1, 2]可以基于隐空间中不同的隐向量生成不同的图片。基于隐空间的图片编辑方法 [3, 4, 5, 6, 7] 利用预训练的 GAN 及其隐空间，有控制地改变一张图片对应的隐向量，从而间接实现对图片的编辑。然而这些方法假设在隐空间中沿着某个方向「走直线」就可以实现对一张人脸的某一特征的编辑 (如下图 (b) 中棕色路径(1)) 。