用Attention玩转CV,一文总览自注意力语义分割进展( 七 )

Nonlocal 高昂的复杂度成为制约其应用的关键瓶颈。我们可以重新审视下公式(2)

其中,,。因此,两步矩阵乘法计算量都是。使用下乘法结合律,先算后两者的乘积,便可以得到的复杂度。由于,复杂度减少了整整一个量级。再加入,便可以得到:

由于的原因,两式并不完全等价。但是对于 deep learning 来说,两者的 capacity 是近似的。其实,一般地,和的维度被设定为小于的,如前两者64,后者512。这里我们将前者的维度记为。则 Nonlocal 和 A2Net 复杂度分别为和。

用Attention玩转CV,一文总览自注意力语义分割进展

图9/13

那么,如何从直觉上理解公式 (4) 呢?里得到的是一个的矩阵,可以看做是个描述子,表达整个 feature map 中的关键概念。而表示的是从个像素到个描述子的映射关系,可以看作像素特征加权平均得到了描述子,权重就是这个映射矩阵。则反之,作为权重,将描述子加权平均,得到重构后的像素特征。

推荐阅读