定义|时间走向二维，基于文本的视频时间定位新方法兼顾速度与精度( 二 ) 尺度|精度|定位|文本|视频|片段

文章图片

论文地址：https://arxiv.org/abs/2012.02646
代码地址：https://github.com/microsoft/2D-TAN/tree/ms-2d-tan

这里二维时间图的单位时间长度τ决定了定位精细程度。为了让定位更精细，该研究设计了一个多尺度的二维时间图，如图1(b)。该研究选取不同的单位时间长度来构造不同精细度的二维时间图。这种方式可以让模型在更大的时间范围上学习片段间的依赖关系，同时也让每个片段获得更丰富的上下文信息。另一个好处是，这种多尺度建模也可以看作是一种稀疏采样的方式，从而降低片段特征抽取和片段间建模所带来的计算开销，将计算复杂度从二次方降到了线性。

文章图片

图 1 二维时间图的示意图。 (a) 表示的是稠密单尺度二维时间图。黑色坐标轴分别表示的是开始和时长的标号，而灰色坐标轴表示的是与之对应的开始时刻和持续时间。二维图中红色的程度表示目标片段和候选片段的匹配程度。这里是一个预先定义好的单位时长。白色格子表示无效的视频片段。（b）表示的是稀疏多尺度二维时间图。稀疏多尺度二维时间图由多个二维时间图构成，各个二维时间图的单位时长不相同() 。灰色格子表示有效但非候选的视频片段。其他颜色定义同上。通过在多个小尺寸图上建模，可以减少计算开销。
下面我们将具体介绍该方法。
多尺度二维时域邻近网络（MS-2D-TAN）
本文提出的模型如图 2 所示。该模型由三个模块构成：文本编码模块，视频的二维时间特征图模块和多尺度二维时间邻近网络。下文将逐一介绍各个模块。

文章图片

图 2 MS-2D-TAN 的框架示意图。
语句的文本特征
该研究首先将各个单词用 GloVe 进行编码，再输入到 LSTM 中。该研究将 LSTM 的输出取平均作为语句的特征向量。
视频的二维时域特征图
该研究首先将视频分割成N个小的单元片段（clip），再通过预训练好的模型将这些片段抽取特征，大小是N×d^V 。候选片段由多个连续的单元片段所构成，且长度并不相同。为获取统一的片段特征的表示，该研究将抽取好的单元片段特征通过叠加卷积的方式获得所有候选片段特征。再根据每个候选片段的开始时刻和持续时间，将所有的候选片段排列成一个二维特征图。
当研究人员使用N - 1 个卷积层可获得所有有效片段的特征。但当N较大时，这样的计算开销也往往较大。因此，该研究采用了一个稀疏采样的方式。如图 2 所示，该研究对较短的片段进行密集的采样，而对较长的片段进行稀疏采样。先用 A 层步长为 1 ，核尺寸为 2 的卷积获得短片段的特征，之后每隔 A/2 个卷积层，步长增加一倍，逐步获得较长片段的特征。通过这种方式可以不用枚举出所有的片段，从而降低计算开销。前者获得的二维特征图我们称之为稠密二维特征图，而后者则称之为稀疏二维特征图。