何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法

TensorMask 密集实例分割效果示例。左图:示例图;右图:局部放大。图中可以看到,不仅较大和较小的物体都得到了较为完善的勾画,物体之间相互遮挡的边缘也能够正确地处理。

雷锋网 AI 科技评论按:大家都知道物体检测算法中有单阶段方法和双阶段方法之争,前者一般运算量较低、运行速度更快,但后者的准确率一般更高,适合需要精度的场合。

双阶段物体检测的标杆方法 Faster R-CNN 和 Mask R-CNN都来自 FAIR 研究员何恺明,而他也在单阶段方法的研究上做出了突破,提出了 RetinaNet。不过何恺明组意识到,目前的单阶段方法都仅仅针对了预测边界框的任务,而在像素级实例分割方面没有什么建树。他们欣然接受了这一挑战,并带来了这篇论文《TensorMask: A Foundation for Dense Object Segmentation》(TensorMask,密集物体分割的基础),arxiv.org/abs/1903.12174。雷锋网 AI 科技评论把论文主要内容概要介绍如下。

「滑动窗口」,在图像中不同的位置密集放置许多不同的窗口,并分别在这些窗口里尝试寻找物体的做法,是计算机视觉领域最早、也最成功的概念之一,我们也自然地在卷积神经网络中见到了这种范式。然而,虽然如今的表现最好的目标检测系统仍然依靠预测滑动窗口来生成最初的候选区域,紧接着我们会在这些候选区域上进行第二阶段的优化过程(重新判别)来达到更高的准确率,比如 Faster R-CNN 和 Mask R-CNN 就都采用了这样的设计,然后分别在边界框的物体检测以及像素级实例分割任务中取得了优秀的表现。在 COCO 数据集的物体检测竞赛中霸榜的正是这类方法。

推荐阅读