用Attention玩转CV,一文总览自注意力语义分割进展( 四 )

用Attention玩转CV,一文总览自注意力语义分割进展

图3/13

而 DANet[4],是把 Nonlocal 操作视为 spatial attention,以此引出了 channel attention ,两路融合。OCNet[5],则是将 object context (spatial attention) 和卷积强强联合,分别捕捉全局和局部信息,并在多个数据集上取得很高的精度。

Nonlocal 对于每个的计算,都要在全图上进行,因此复杂度为。CCNet[6]将全图计算分解为两步,一步是按行计算,一步是按列计算。类比于将矩阵分解为。因此 CCNet 复杂度为。

用Attention玩转CV,一文总览自注意力语义分割进展

图4/13

PKU兄弟实验室的 ISA[18]也是将 attention map 的全图计算分解为两步:第一步长距离attention ,第二步短距离。中间夹着一步 permute 操作。其实类似组卷积- shuffle -组卷积的过程,思路上顺承 IGCV[19],其复杂度也是。

推荐阅读