用Attention玩转CV,一文总览自注意力语义分割进展( 三 )

这里计算时,只考虑了像素的特征,而没有考虑相对位置。倘若也将像素坐标位置考虑进来,其实就是全图版的 MeanShift Filter,一种经典的保边滤波算法。Nonlocal 还可以溯源到经典的 Non-local means 和 BM3D。其功效也来源于此,即高维 feature map 里存在大量的冗余信息,该类算法可以消除大量噪音。Kaiming 组的另一篇文章[17]分析了 Nonlocal 对模型鲁棒性的提升,考虑到上述的去噪效果,这个结论是显而易见的。效果如下:

用Attention玩转CV,一文总览自注意力语义分割进展

图2/13

a. 原图 b. Feature map c. Feature map after Nonlocal

Other Attention Models

PSANet[3]和 Nonlocal 最大的区别在于,相关度矩阵的计算。对于像素,其相关度向量,通过施加在上的两个卷积得到,即由变为,只和 query 及相对位置相关。此外,PSANet 包含两路 attention ,相当于 transformer 中的两个 head 。两路分别起到 collect 和 distribute 的作用。

推荐阅读