用Attention玩转CV,一文总览自注意力语义分割进展

机器之心专栏

作者:李夏

本文总结近两年语义分割领域对 attention 和“低秩”重建机制的探索,并介绍笔者被 ICCV 2019 接收为 Oral 的工作:Expectation-Maximization Attention Networks for Semantic Segmentation(代码已开源:github.com/XiaLiPKU/EMANet)。注:本文中的 attention 仅指 self-attention,不涉及 soft-attention。

Attention 机制继在 NLP 领域取得主导地位[1]之后,近两年在 CV 领域也开始独领风骚。率先将之引入的是 Kaiming He 组的 Nonlocal[2]。此后层出不穷的文章,引发了一波研究 attention 机制的热潮。

仅2018年,在语义分割领域就有多篇高影响力文章出炉,如 PSANet[3],DANet[4],OCNet[5],CCNet[6],以及今年的Local Relation Net[7]。此外,针对 Attention 数学形式的优化,又衍生出A2Net[8],CGNL[9]。而 A2Net 又开启了本人称之为“低秩”重建的探索,同一时期的SGR[10],Beyonds Grids[11],GloRe[12],LatentGNN[13]都可以此归类。

上述四文皆包含如下三步:1.像素到语义节点映射 2.语义节点间推理 3.节点向像素反映射。其中,step 2的意义尚未有对比实验验证,目前来看,step 1 & 3 构成的对像素特征的低秩重建发挥了关键作用。关于如何映射和反映射,又有了 APCNet[14]和笔者的 EMANet[15]等相关工作。

推荐阅读