编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法( 四 )

  • HiT-4-level:除基础 HiT 的 2 个层次外 , 新增 2 个层次的对比匹配 , 分别是(Video Encoder-Layer-2 , Text Encoder Layer-5)和(Video Encoder-Layer-3 , Text Encoder Layer-9)
  • HiT-3-level-a:除基础 HiT 的 2 个层次外 , 新增 1 个层次的对比匹配 , 对应(Video Encoder-Layer-3 , Text Encoder Layer-9)
  • HiT-3-level-b:除基础 HiT 的 2 个层次外 , 新增 1 个层次的对比匹配 , 对应(Video Encoder-Layer-2 , Text Encoder Layer-5)

  • 编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
    文章图片

    样本队列的 Key 编码器使用基于动量更新的编码器 , 对比如果使用和 Query 编码器相同的梯度更新策略 , 可以看出基于动量更新的 Key 编码器更优:

    编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
    文章图片

    对比匹配中使用 InfoNCE 和 Triplet Loss , 可以看出 InfoNCE 更优:

    编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
    文章图片

    模型的视觉输入使用不同 Expert embedding:

    编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
    文章图片

    使用不同特征融合方式 , 整体平均池化更优:

    编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
    文章图片

    总结
    本文将 MoCo 方法引入到视频文本检索的跨模态对比学习任务中 , 通过构建 MMC 模块既实现视觉和文本编码器的交互拖动更新 , 同时又实现了大规模的负样本对比学习 。 值得一提的是本文通过 HCM 模块探寻了不同层次的特征匹配的效果 , 扩宽了主流方法仅使用单一层次维度进行跨模态对比学习的思路 。
    HiT 已应用在快手多个业务场景中 , 通过 HiT 产生的embedding , 提升了多模态模型表征能力 , 对视频检索、图文相关性判断、视频内容理解等模型都带来了效果的提升 , 在视频智能审核、视频冷启动、智能创作等业务场景中发挥重要作用 。
    参考文献
    [1] Attention Is All You Need
    [2] ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
    [3] LXMERT: Learning Cross-Modality Encoder Representations from Transformers
    [4] VisualBERT: A Simple and Performant Baseline for Vision and Language
    [5] Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
    [6] COOT: cooperative hierarchical trans- former for video-text representation learning
    [7] T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval
    [8] HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval
    [9] Momentum contrast for unsupervised visual representation learning

    推荐阅读