何恺明组基础理论再突破：媲美双阶段方法的单阶段实例分割算法( 二 )_TensorMask密集实例分割效果示例。左图

有一些近期的边界框物体检测器抛弃了第二阶段的优化过程，完全关注直接预测滑动窗口，比如 SSD、Y YOLO 和 RetinaNet（同样来自何恺明组，解读文章见这里），这些方法不仅重新引发了关注，也带来了令人期待的结果。相比之下，我们并没能见到什么单阶段方法在像素级实例分割任务中做出大的改进，达到 SSD、RetinaNet 那样级别的性能。为什么边界框预测中单阶段密集检测方法那么火热，但却没有怎么在实例分割中见到呢？这个问题从基础科研角度非常地令人好奇。这项研究的目标就是解答这个问题，并为单阶段密集实例分割的探索做一些基础工作。

作者们的主要发现是，定义密集遮罩表征的核心概念，以及这些概念在神经网络中的高效实现方法都是缺乏的。边界框有固定的、尺度无关的低维表征，相比之下，分割遮罩可以从更丰富、更结构化的表征中受益。举例说明，每个遮罩自己就是一个二维空间映射图，使用更大的二维空间映射图也可以让更大目标的遮罩受益。如果想要让密集实例分割变得可能，为密集遮罩开发高效的表征是关键的一步。

为了解决这个问题，作者们在这篇论文中定义了一系列用高维张量表征遮罩的核心概念，接下来也就可以借助这些概念探索用于密集遮罩预测的新网络架构。为了展示这种新的表征的优势，作者们展示了数种可能的网络架构并进行了实验。作者们把提出的框架称为「TensorMask」，基于它，作者们建立了第一个表现可以比拟 Mask R-CNN 的基于滑动窗口的单阶段密集实例分割系统。