编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法

机器之心专栏
机器之心编辑部

近年来 , 互联网环境中的多媒体内容大量增加 , 如何通过视频文本相互检索 , 提升用户获取信息的效率 , 满足不同的用户对多媒体内容的消费需求变得异常重要 。 随着短视频内容社区的兴起 , 多媒体内容的创作门槛变低 , UGC 内容成为主流 , 视频文本检索任务面临更加复杂和困难的挑战 。 本文针对视频文本检索任务提出层次化对比学习的跨模态检索思路 , 实现了更加高效且精准的视频文本检索方法 , 目前该论文已经被 ICCV2021 接收 。

编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
文章图片

【编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法】论文链接:https://arxiv.org/abs/2103.15049
当前主流的视频文本检索模型基本上都采用了基于 Transformer[1] 的多模态学习框架 , 主要可以分成 3 类:
  • Two-stream , 文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer , 然后在多模态 Transformer 中融合 , 代表方法例如 ViLBERT[2]、LXMERT[3] 等 。
  • Single-stream , 文本和视觉信息只通过一个多模态 Transformer 进行融合 , 代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等 。
  • Dual-stream , 文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer , 代表方法例如 COOT[6]、T2VLAD[7] 等 。

编码|ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
文章图片

由于类别 1 和类别 2 方法在时间开销上的限制 , 本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了类别 3 Dual-stream 的 Transformer 框架 , 以满足大规模视频文本检索的需求 。 然而现有基于 Transformer 的多模态学习方法会有两个局限性:
  • Transformer 不同网络层的输出具有不同层次的特性 , 而现有方法并没有充分利用这一特性;
  • 端到端模型受到显存容量的限制 , 无法在一个 batch 内利用较多的负样本 。
针对上述 2 个局限 , 本文提出(1)层次跨模态对比匹配(Hierarchical Cross-modal Contrast Matching , HCM) , 对 Transformer 的底层网络和高层网络分别进行对比匹配 , 解决局限 1 的问题;(2)引入 MoCo[9] 的动量更新机制到跨模态对比匹配中 , 使跨模态对比匹配的过程中能充分利用更多的负样本 , 解决局限 2 的问题 。 实验表明 HiT 在多个视频-文本检索数据集上取得 SOTA 的效果 。
HiT 模型主要有两个创新点:

推荐阅读