UI2CODE复杂背景无法识别?闲鱼工程师这样打造高准确率方案( 五 )

根据拉普拉斯算子计算周边梯度 , 判断所处区域是否是复杂区域 。

简单背景:

由于目标检测模型本身的局限性 , 会导致没法达到像素级别的精确性 , 因此需要对位置做修正 。 如果是简单背景就可以基于梯度的思想做位置修正 , 具体计算方式如下:

复杂背景:

背景是复杂背景时 , 上图是原图 , 下图是提取的文字区块:

??此时提取出的框不是完全正确 , 那么此时根据梯度等机器视觉算法已经不能对位置做正确的修正了 。 本文提出了基于GAN网络的方式来解决复杂背景内容提取问题 , 网络的主要结构如下图所示:

为什么选择GAN网络?

1)基于srGAN网络 , 该网络加入了特征图的损失函数 , 这样可以很好保留高频信息 , 能更好的保留边缘 。 特征图的损失函数如下图所示:

2)由于有对抗损失的存在 , 可以很好的降低误检率 。

3)最重要的一点是在有透明度的场景下 , 语义分割网络只能“提取”元素 , 无法“还原”元素 。 而GAN网络不仅可以在提取元素的同时还原出未叠加时的像素情况 。

推荐阅读