中大|南洋理工大学、港中大Talk-to-Edit，对话实现高细粒度人脸编辑( 二 )_方向|特征|研究|南洋|对话|隐向

文章图片

该研究所用方法抛开了「走直线」这一假设，在「走动」过程中不断根据此刻的隐向量寻找当前最优的前进方向 (如上图 (b) 中黑色路径 (2)) 。于是，研究者在隐空间中构建一个向量场来表示每个隐向量的最佳「前进方向」，沿着当前隐向量的最佳「前进方向」移动隐向量，从而改变图片的某一个语义特征。称这个向量场为语义场，即 Semantic Field 。该研究的编辑方式等价于沿着向量场的场线 (field line) ，向势(potential) 增加得最快的方向移动。这里的势指的就是某一特征的程度，比如在编辑「刘海」这一特征时，隐向量沿着场线，向刘海变长最快的方向移动 (如上图(b) 中黑色路径(2)) 。
Semantic Field 具有两个特性：1) 对同一个人来说，不断改变某一个属性，需要的 “最佳前进方向” 是不断变化的。 2）在编辑同一个属性时，对于不同人，对应的「最佳前进方向」也是不同的。该研究用一个神经网络来模拟 Semantic Field ，用如上图 (a) 所示的方法训练 Semantic Field 。更多实现细节请参考论文和代码。
如下表，实验结果表明，相对于用「走直线」假设的 baselines ，该研究方法可以在人脸编辑的过程中更好的保留这个人的身份特征，并且在编辑某一个语义特征时减少对其他无关语义特征的改变。

文章图片

如下图所示，对比很明显：

文章图片

(2) Language Encoder 和 Talk Module
为了给用户提供更便捷直观的交互方式，该研究使用对话的方式让用户实现编辑。 Talk-to-Edit 用一个基于 LSTM 的 Language Encoder 来理解用户的编辑要求，并将编码后的编辑要求传递给 Semantic Field 从而指导编辑。 Talk 模块可以在每轮编辑后向用户确认细粒度的编辑程度，比如向用户确认现在的笑容是否刚好合适，是否需要再多一档。 Talk 模块也可以为用户提供其他编辑建议，比如系统发现用户从未尝试过编辑眼镜这个特征，于是询问用户是否想试一试给照片加个眼镜。
CelebA-Dialog 数据集

文章图片

基于 CelebA [8] 数据集，该研究为研究社区提供了 CelebA-Dialog 数据集：
（1）研究提供了每张图片的高细粒度特征标注。如上图所示，根据笑容的灿烂程度，「笑容」这个语义特征被分为 6 档。 CelebA-Dialog 精确地标注了每张图片中的「笑」属于 6 个等级中的哪一个。

中大|南洋理工大学、港中大Talk-to-Edit，对话实现高细粒度人脸编辑( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)