何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法( 四 )

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法

左图:自然表征。右图:TensorMask 使用的层间对齐表征

通过引入 TensorMask 框架,作者们基于一组按大小排列的四维张量开发了一个金字塔结构,并把它称作张量双金字塔。传统的特征金字塔是一组不同尺寸的特征图列表,相比之下,张量双金字塔包含了一系列四维张量,尺寸从(V,U,H,W)到(2kV,2kU,1/2k H,1/2k W),其中 k 表示尺寸索引。这种结构可以让(H,W)和(V,U)两组几何子张量分别形成金字塔形,不过两者的缩放方向相反。这是一种很自然的设计,对应了理想中较大的对象需要高分辨率的遮罩,但空间位置变化较少(较大的 k 值),以及较小的对象只需要低分辨率的遮罩,但空间位置就较为细分(较小的 k 值)。

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法

作者们把这些组件融合进参考 RetinaNet 设计的网络主干和训练过程中,新提出的密集遮罩预测器也就可以拓展网络中原先的边界框预测器的功能。作者们仔细设计了多组对照实验,在其中评估了 TensorMask 框架的有效性,并展示了显式地捕捉几何结构这一设定的重要性。最后,作者们也把 TensorMask 和 Mask R-CNN 的结果进行了对比。这些令人欣喜的结果都表明,论文中提出的框架已经为单阶段密集滑动窗口实例分割的未来研究铺平了道路。

推荐阅读