Jiangmen
From:Google 编译:T.R
抠图是图像和视频处理中的重要技术 , 但随着拍照像素的提高 , 超高分辨率图像的主体抠图变得越来越困难 , 特别是对于头发、毛发、植物的枝叶等细节的处理让后期师累红了眼 。 如何对高分辨率图像进行有效、准确地抠图一直是图像处理软件、各类app应用的重点研究方向 , 也是图像相关工作人员的迫切需求 。
来自UIUC、Adobe和俄勒冈大学的研究人员利用基于图元的剪切缝合方法对高分辨率图像进行有效处理 , 并提出了交叉片元上下文信息抽取模块获取不同片元间的长程依赖关系 , 更加准确高效地对高分辨率图像中的主体进行抠取 。
文章图片
抠图 (Matting) 技术的前世今生
在深度学习风靡世界之前 , 抠图一般使用 基于采样和 基于传播两种原理进行处理 。 针对未知的像素 , 采样方法一般会从前景和背景像素中采样 , 进行适当的融合来预测未知像素的alpha值 。 还有的方法基于图像片元自适应采样 , 可以捕捉长程全局信息 。 这一方法在RGBXY特征空间中采集与当前像素接近的邻域像素 。 但与这些采样方法不同的是 , HDMatt使用 深度学习模型捕捉了不同图像片元间的长程依赖 , 同时在 特征空间中而不是RGBXY空间中进行采样 , 使得HDMatt可以 在语义层面上捕捉长程依赖信息 。
基于传播的方法主要包括了 基于泊松方程的方法、基于随机游走的交互式抠图和闭合式抠图 , 这些方法主要基于局域平滑 , 构建损失函数并通过解线性方程组寻找到全局优化的alpha掩膜 。 还有的方法 基于非局域的信息 , 在特征空间中采集与当前像素匹配的像素 , 并将此像素看做上下文信息来预测alpha值 。 HDMatt也借鉴了这种思想 ,通过采样上下文片元来捕捉长程上下文信息 。
随着深度学习的发展 , 出现了像 DIM、AlphaGAN、ContextNet、IndexNet和GCAMatting等高性能的抠图方法 , 但这些方法在处理高分辨图像时还面临着一系列问题 。 相较而言 , 本文提出的方法 可以有效处理超高分辨率图像 , 并添加了片元间的交叉依赖性来提升算法的抠图表现 。
高分辨率抠图方法HDMatt
为了实现针对超高分辨率图像的抠图 , 本文采用的方式是将图像裁剪成一系列小片元 , 针对片元处理口又合并成完整的结果 。 但针对单一片元进行处理的话会造成信息的丢失和预测结果的不连续性 , 为了解决这一问题 , 本文提出了一种基于片层交叉上下文模块来获取不同片元间的长程依赖信息 , 使得整体的预测结果更为完整和连续 。
在处理流程中 , 首先要将图像随机剪切成320x320 , 480x480 , 640x640大小的图像 , 而后统一调整为320x320大小 。 在推理时则需要将图像裁剪成相互重叠的图像元以便更好的进行融合 。 为了获取不同图像元之间的依赖关系 , 下面我们将详细讲解图元交叉上下文模块(Cross-Patch Context Module, CPC)的结构和原理 。
图元交叉上下文模块的主要目的是 相关的图元信息抽取出来用于提升抠图的精度和连续性 , 同时使用了Trimap来作为引导对不同区域的信息进行更好的传播 。 为了选出与当前图元最为相关的K个片元 , 研究人员使用了编码器将当前图元和所有的图元进行编码 , 随后将前景和背景区域设为零来获取未知区域的编码结果 。 最后利用未知区域编码与其他图元编码的点乘和来得到相关性得分 , 得分越好的片元与当前片元的相关性就越高 , 在信息传输中就具有越重要的作用 。 (具体细节可以参考论文3.2.1部分) 。
文章图片
基于这样的原理筛选出top-K个片元作为辅助信息一起输入网络中 , 在权衡了性能和计算速度后研究人员选择了K=3来构建模型 。
本文提出的模型如下图所示 ,图像元和对应的Trimap作为输入 , 而后通过CPC模块进行处理融合 , 最终由解码器输出掩膜结果 。 其中当前图像和相关的上下文片元都共享同一个编码器E,编码后得到一系列特征 , 并与Trimap一同输出CPC进行处理融合 。
文章图片
为了更好的利用相关片元间的信息 , 研究人员提出了一种基于Trimap引导的 非局域操作(Trimap-Guided Non-Local, TGNL) 。 一般来说 , 针对未知区域与前景更相似的像素更有可能是前景、同样与背景更相似的像素则更有可能属于背景 。 Trimap中其实涵盖了这些信息 。 基于这种考虑 , 研究人员使用Trimap来对相关图元的信息传播进行引导 。 这一操作将比较当前图像中未知区域与相关图像中的前景、背景以及未知区域 , 并将这三种不同关系的相关性特征进行拼接作为解码器的输入来预测最终的掩膜结果 。
文章图片
片元交叉上下文模块中 , 基于Trimap引导的非局域操作 , 右图是TGNL操作对于相关性特征进行融合和具体过程 。
实验结果
研究中使用了ResNet-34作为基础网络 , 同时利用了Adobe Image Matting(AIM)数据集进行训练、在AIM test上进行了测试结果表面本文提出的方法在精度和细节的效果上都得到了很大的提升 。
文章图片
下表中可以看到 , HDMatt在SAD、MSE、Grad和Conn等指标上都有了大幅度的提升 。
文章图片
针对真实世界的照片来说 , 下图中模特的掩膜也抠取的十分到位 , 纤毫毕现 , 图像中的发丝都不放过 。
文章图片
文章图片
下图中研究人员还将模型中的注意力进行了可视化展示 , 可以看到图中的绿色为当前片元 , 红色则是相关图元 。 图中展示了相关相关图元与当前图元的相关性结果 , 这种方法可以选择与当前图元较远的图元 , 这是传统卷积方法固定感受野不能做到的 。 同时注意力图的相关性可视化表面 , 这种方法可以有效选择相关图元中的相似像素来捕捉更多信息 。
文章图片
如果想要了解更多详细细节 , 请参看论文:
【进行|AI抠图神器!新型高分辨抠图方法HDMatt融合邻域信息呈现清晰细节】arxiv.org/abs/2009.06613v1
推荐阅读
- Apple|法官称苹果零售店搜包和解协议虽不完美,但可继续进行
- 果君|华为Mate X2 典藏版竟逼疯整个摄制组?拯救手滑的神器终于来了(视频)
- Samsung|三星:西安半导体工厂正常运行 已进行封闭管理
- 穿越|解锁听歌新姿势,这款音乐播放神器值得一试?
- GripSeal|液压油缸能用GripSeal格雷希尔快速连接器进行油压密封测试吗?
- 配置|1699元就有5G神器,moto G71性价比真是没谁了
- 普鲁斯特|2022年,我不要再和任何人进行该死的愚蠢交谈
- Xiaomi|小米发布无线投屏神器小米拍拍:支持4K 30帧 售价499元
- 相关|博汇科技:对虚拟主播换脸、语音合成技术进行了研究
- 人物|贾跃亭所持1739.8万股乐视网股票将于明年1月5日进行网拍