用Attention玩转CV,一文总览自注意力语义分割进展( 五 )

用Attention玩转CV,一文总览自注意力语义分割进展

图5/13

ISA

Oxford的DGMN[20]则通过MC采样,使每个像素计算attention所需的参考像素从降为。此外,采样过程可导,可以和网络同步学习,且个参考像素各自对应不同的变换。DGMN把复杂度降为,且精度超过Nonlocal。

用Attention玩转CV,一文总览自注意力语义分割进展

图6/13

DGMN

另一种减少计算量的方法,是将 attention 的全图计算改为窗口内计算。MeanShift 若限制窗口大小,便是 Bilateral Filter,即每个像素的特征,更新为邻域内其他像素的加权平均。权重由特征相似度和空间距离计算而来。而 MeanShift 也被证明等价于迭代至收敛的Bilateral Filter[21]。

MSRA 的 Local Relation Net[7]设计了类似 Bilateral Filter 的操作,在特征相关度计算上使用了标准的 query,key,value 三元组,在空间相关度上设计了Geometry Prior。并且大胆地用这一算子替代了卷积。其节省参数的同时,还具有旋转等变性。整个结构下来有 Transformer 的感觉,即不用 RNN,CNN来收集 context 信息,而是用 attention 来做。至于为什么起效,笔者更想归根到 Bilateral Filter 本身的效果,即保边滤波,起到了保持类间方差的同时,减少类内方差的效果。

推荐阅读