用Attention玩转CV，一文总览自注意力语义分割进展( 九 )_机器之心专栏作者：李夏本文总结近两年

那么，映射和反映射，为何能表现突出呢？这里只说一下自己对语义分割这个任务的分析。我们用来抽取 Feature 用的 ResNet，在 ImageNet 千类数据集上训练，因此特征维度至少 1000 维。而分割问题少则 20 类左右，多也不超过几百类。使用过千维的特征，显然是过参数化了。

对高维数据分类是低效的，因为高维空间中分类边界过于复杂。而映射反映射的流程，其实是对特征的一个低秩重构，使得高维空间中的特征重新分布到低维流形上，便于后续的分类。其实，A2Net 在 ImageNet 上也证明了自己的价值，这说明不只是分割问题合适，类似的一系列任务，都适用这种映射-反映射模块。

上述的几篇文章，映射和反映射矩阵，多是通过卷积学习到的。其实，最常见的池化-上采样，也属于一种超级简化的映射-反映射范式。PSPNet 中的 PPM 和 DeeplabV3 中的 GAP 带来的效益，也可由这个角度进行一定的解释。SIAT-MMLAB 的 APCNet[14]，也属于这一范式的一个具体结构。其 ACM 模块的映射步骤用池化，反映射用学习到的反映射矩阵 (Global-guided Local Affinity)。此外，APCNet 和上述的 Beyonds Grid 都用了多路并行，每路用不同的，来进行不同程度的稀疏重建。