UI2CODE复杂背景无法识别?闲鱼工程师这样打造高准确率方案( 四 )


这是一个业界难题 , 基于传统的图像处理的方法存在准确率和召回率的问题 , 没法解决语义的问题 。 而主流的机器学习的方法 , 例如目标检测无法获取像素级别的位置信息 , 而语义分割的方法则只能提取像素而无法获取半透明叠加前的像素信息 。
本文考虑到这些痛点 , 从UI2CODE业务的业务场景出发 , 采用了目标检测网络来实现内容召回 , GAN网络实现复杂背景中特定前景内容的提取和复原 。

处理流程:

复杂背景的处理流程分为如下几个步骤:

内容召回:通过目标检测网络召回元素 , 即元素是否需要做背景提取操作 。

区域判断:根据梯度等视觉方法判断所处区域是否是复杂区域 。

简单区域:基于梯度的方式找到背景区块 。

复杂区域:采用SRGAN网络进行内容提取 。

内容召回:

内容召回我们采用目标检测网络来实现 , 例如Faster-rcnn或者Mask-rcnn等 , 如下图所示:

区域判断:

推荐阅读