Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,( 二 )


Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

表示不同的 augmented view , 添加上标,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

表示孪生网络中 online 或者 target 分支产生的特征 。
对比学习方法
对比学习方法希望当前样本
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

拉近与正样本
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

的距离 , 提升与负样本
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

的距离 , 一般会使用以下的 InfoNCE Loss:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

具体实现时 , 两类代表性方法 MoCo 和 SimCLR 有许多差异:MoCo 使用了 momentum encoder 作为 target branch 的编码器 , 而 SimCLR 让 target branch 与 online branch 共享参数;MoCo 使用 memory bank 来存储负样本 , 而 SimCLR 使用当前 batch 中其它样本作为负样本 。
通过对 SimCLR 梯度的略微化简(关闭 target branch 的梯度反传 , 不会影响最终性能) , 对比学习方法的梯度可以统一成下面的形式:
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

在这个式子中 ,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

的作用是将正样本拉近 ,
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

的作用是将负样本推离 , 因此作者将这两项分别称为正梯度和负梯度 。
非对称网络方法
非对称网络方法只使用正样本来学习特征 , 并且通过非对称网络的设计来避免平凡解 。 这类方法一般会在 online branch 后增加一个 predictor 网络
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

, 同时关闭 target branch 的梯度反传 , 最终使用下面的损失函数
Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
文章图片

这类方法中 , 作为代表的 BYOL 和 SimSiam 非常相似 , 唯一的差异就是是否使用 momentum encoder 。 虽然这类方法表现出非常优异的性能 , 人们对它们的工作原理却所知甚少 。 最近 DirectPred 这篇文章从网络优化的动态过程出发对它们做了初步的解释 , 这篇工作观察到 predictor 网络的特征空间会逐渐与特征的相关性矩阵的特征空间对齐 , 基于此 , DirectPred 提出了 predictor 网络的一种解析解 。 在此工作的基础上 , 作者进一步展示出非对称网络方法与其它方法的联系 , 特别地 , 它们的梯度可以推导为

推荐阅读