Siamese|一个框架统一Siamese自监督学习，清华、商汤提出简洁、有效梯度形式，( 二 ) 梯度|监督|SimCLR|统一|样本|负

文章图片

表示不同的 augmented view ，添加上标，

文章图片

表示孪生网络中 online 或者 target 分支产生的特征。
对比学习方法
对比学习方法希望当前样本

文章图片

拉近与正样本

文章图片

的距离，提升与负样本

文章图片

的距离，一般会使用以下的 InfoNCE Loss：

文章图片

具体实现时，两类代表性方法 MoCo 和 SimCLR 有许多差异：MoCo 使用了 momentum encoder 作为 target branch 的编码器，而 SimCLR 让 target branch 与 online branch 共享参数；MoCo 使用 memory bank 来存储负样本，而 SimCLR 使用当前 batch 中其它样本作为负样本。
通过对 SimCLR 梯度的略微化简（关闭 target branch 的梯度反传，不会影响最终性能），对比学习方法的梯度可以统一成下面的形式：

文章图片

在这个式子中，

文章图片

的作用是将正样本拉近，

文章图片

的作用是将负样本推离，因此作者将这两项分别称为正梯度和负梯度。
非对称网络方法
非对称网络方法只使用正样本来学习特征，并且通过非对称网络的设计来避免平凡解。这类方法一般会在 online branch 后增加一个 predictor 网络

文章图片

，同时关闭 target branch 的梯度反传，最终使用下面的损失函数

文章图片

这类方法中，作为代表的 BYOL 和 SimSiam 非常相似，唯一的差异就是是否使用 momentum encoder 。虽然这类方法表现出非常优异的性能，人们对它们的工作原理却所知甚少。最近 DirectPred 这篇文章从网络优化的动态过程出发对它们做了初步的解释，这篇工作观察到 predictor 网络的特征空间会逐渐与特征的相关性矩阵的特征空间对齐，基于此， DirectPred 提出了 predictor 网络的一种解析解。在此工作的基础上，作者进一步展示出非对称网络方法与其它方法的联系，特别地，它们的梯度可以推导为

Siamese|一个框架统一Siamese自监督学习，清华、商汤提出简洁、有效梯度形式，( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)