何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法( 三 )

TensorMask 表征的关键思想是使用结构化的四维向量,在中间域中表征遮罩。DeepMask 和 InstanceFCN 等之前的研究针对的是一个类似的问题,对未知类别的对象位置候选区域进行分割,它们都使用的是非结构化的三维张量,其中把遮罩打包进了第三层的「通道」坐标。与表征对象位置的坐标不同,通道坐标中没有明确的图形含义,也就很难操作。由于这些方法中使用了很基本的通道表征,他们也就失去了使用结构化的数组把遮罩表示为二维实体、从而获得改善的机会;这一区别就像是多层感知机和卷积网络中表征二维图像的区别一样。

与之前这些面向通道的方案不同,这篇论文的作者们提出的方法运用了形状(V,U,H,W)的四维矩阵,其中(H,W)表示对象的位置,(V,U)表示遮罩的相对位置,这四者都是几何子张量,也就是说,它们都具有定义完善的坐标轴,也都带有关于图像的几何信息。这种做法把用非结构化的坐标编码遮罩替换为使用结构化的几何子张量,也就让定义新的运算和网络结构变得可能。新定义的网络可以直接在(V,U)子张量上运算,利用其中的几何信息,包括协调变换、上下采样以及使用尺寸金字塔。

推荐阅读