用Attention玩转CV,一文总览自注意力语义分割进展( 九 )

那么,映射和反映射,为何能表现突出呢?这里只说一下自己对语义分割这个任务的分析。我们用来抽取 Feature 用的 ResNet,在 ImageNet 千类数据集上训练,因此特征维度至少 1000 维。而分割问题少则 20 类左右,多也不超过几百类。使用过千维的特征,显然是过参数化了。

对高维数据分类是低效的,因为高维空间中分类边界过于复杂。而映射反映射的流程,其实是对特征的一个低秩重构,使得高维空间中的特征重新分布到低维流形上,便于后续的分类。其实,A2Net 在 ImageNet 上也证明了自己的价值,这说明不只是分割问题合适,类似的一系列任务,都适用这种映射-反映射模块。

上述的几篇文章,映射和反映射矩阵,多是通过卷积学习到的。其实,最常见的池化-上采样,也属于一种超级简化的映射-反映射范式。PSPNet 中的 PPM 和 DeeplabV3 中的 GAP 带来的效益,也可由这个角度进行一定的解释。SIAT-MMLAB 的 APCNet[14],也属于这一范式的一个具体结构。其 ACM 模块的映射步骤用池化,反映射用学习到的反映射矩阵 (Global-guided Local Affinity)。此外,APCNet 和上述的 Beyonds Grid 都用了多路并行,每路用不同的,来进行不同程度的稀疏重建。

推荐阅读