Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,( 二 )
文章图片
表示不同的 augmented view , 添加上标,
文章图片
表示孪生网络中 online 或者 target 分支产生的特征 。
对比学习方法
对比学习方法希望当前样本
文章图片
拉近与正样本
文章图片
的距离 , 提升与负样本
文章图片
的距离 , 一般会使用以下的 InfoNCE Loss:
文章图片
具体实现时 , 两类代表性方法 MoCo 和 SimCLR 有许多差异:MoCo 使用了 momentum encoder 作为 target branch 的编码器 , 而 SimCLR 让 target branch 与 online branch 共享参数;MoCo 使用 memory bank 来存储负样本 , 而 SimCLR 使用当前 batch 中其它样本作为负样本 。
通过对 SimCLR 梯度的略微化简(关闭 target branch 的梯度反传 , 不会影响最终性能) , 对比学习方法的梯度可以统一成下面的形式:
文章图片
在这个式子中 ,
文章图片
的作用是将正样本拉近 ,
文章图片
的作用是将负样本推离 , 因此作者将这两项分别称为正梯度和负梯度 。
非对称网络方法
非对称网络方法只使用正样本来学习特征 , 并且通过非对称网络的设计来避免平凡解 。 这类方法一般会在 online branch 后增加一个 predictor 网络
文章图片
, 同时关闭 target branch 的梯度反传 , 最终使用下面的损失函数
文章图片
这类方法中 , 作为代表的 BYOL 和 SimSiam 非常相似 , 唯一的差异就是是否使用 momentum encoder 。 虽然这类方法表现出非常优异的性能 , 人们对它们的工作原理却所知甚少 。 最近 DirectPred 这篇文章从网络优化的动态过程出发对它们做了初步的解释 , 这篇工作观察到 predictor 网络的特征空间会逐渐与特征的相关性矩阵的特征空间对齐 , 基于此 , DirectPred 提出了 predictor 网络的一种解析解 。 在此工作的基础上 , 作者进一步展示出非对称网络方法与其它方法的联系 , 特别地 , 它们的梯度可以推导为
推荐阅读
- 市场资讯|“真·网红”马斯克:一个特斯拉哨子30万,大红内裤遭秒光
- 市场|刘作虎:一加达成了一个小目标
- 创事记|NFT距离元宇宙只差一个周杰伦
- 创事记|从主播开始谈一个购物需求
- 网络|白荣芳:荣耀为始 芳华绽放
- 教育|学科停船后的第一个寒假,“脑机接口”能否成为科技素质教育的后起之秀?
- 财年|小米、苹果怕不怕?索尼也要造车,还带来了一个大消息
- 新闻|一个人的生活品质,可以通过平时收藏的公众号显现出来
- 创事记|大厂难以沉下去的乡镇夫妻店,诞生了一个IPO
- IT|达拉斯希望成为福特下一个自动驾驶汽车工厂的所在地