Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,( 三 )


Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

其中
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

是 predictor 网络的解析解 。 可以看到 , 上式同样主要有两个部分:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

是正梯度 ,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

是负梯度 。
粗看起来这个结果非常反直觉:损失函数中没有使用负样本 , 但是梯度中却出现了负梯度 。 实际上 , 这些负样本来自于 predictor 在优化过程中学习到的信息 。 根据 DirectPred 的结论 , predictor 的特征空间会和相关性矩阵的特征空间逐渐对齐 , 因此 predictor 在训练过程中很可能会将相关性矩阵的信息编码到网络参数中 , 在反传时 , 这些信息就会以负样本的形式出现在梯度中 。
特征解耦方法
特征解耦方法旨在减小各特征维度之间的相关性来避免平凡解 。 由于不同工作采用的损失函数在形式上差异很大 , 作者对它们分别进行讨论 。
Barlow Twins 采取如下损失函数:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

其中
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

是两个 augmented view 之间的相关性矩阵 。 该损失函数希望相关性矩阵上的对角线元素接近 1 , 而非对角线元素接近 0 。
该损失函数的梯度形式为:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

作者首先将第一项替换为
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

, 同时 , 原始的 Barlow Twins 对特征采取了 batch normalization , 作者将其替换为
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

normalization , 这些变换都不会影响到最终性能 。
VICReg 在 Barlow Twins 的基础上做了一些改动 , 为了去掉加在特征上的 batch normalization , 它采取了如下损失函数:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

其对应的梯度形式为
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

通过对特征施加
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,

推荐阅读