定义|时间走向二维，基于文本的视频时间定位新方法兼顾速度与精度( 三 ) 尺度|精度|定位|文本|视频|片段

通过多尺度二维时间邻近网络定位
有了视频的稀疏二维特征图（图 2 中蓝色立方体）和文本特征（图 2 中黄色立方体），该研究将其进行融合，获得融合的稀疏二维特征图（图 2 中绿色立方体）。该研究再根据不同的时间尺度，将单一尺度的稀疏二维特征图，转化成一组稀疏的多尺度二维特征图。对于每个尺度的二维特征图，该研究使用一系列的 gated convolution 对每个片段和其邻近片段的关系进行建模，并通过一个全联接层获得各尺度中各片段最终的得分。
训练和测试
在训练过程中，每一个尺度都会有一个对应的损失函数，该研究将二元交互熵 (Binary Cross Entropy) 作为模型的损失函数，同时使用一个经过线性变换的 IoU (intersection over union)的值作为损失函数中的标签。该研究将所有的损失函数加在一起作为整个模型的损失函数。
在测试时，该研究根据特征的位置，得到每个片段的得分，并根据 NMS 对其进行筛选。如果一个片段存在于多个得分图中，那么选取最高的得分作为其得分。
实验结果
该研究在 Charades-STA [2], ActivityNet Captions [3] 和 TACoS [4] 三个数据集上评测。实验结果如表 1-3 所示。为了公平对比，该研究使用了和前人方法相同的视频和文本特征，且所有模型的超参保持一致。从实验结果中，无论使用哪种特征，该研究提出的 MS-2D-TAN 方法均能获得前两位的成绩。而在某些数据集上，进一步调整超参可以获得更好的性能，如表 3 的 MS-2D-TAN* 。

文章图片

表 1 Charades-STA 的实验结果

文章图片

表 2 ActivityNet Captions 的实验结果

文章图片

表 3 TACoS 的实验结果
时间和内存的开销
该研究还对比了时间和内存的开销。图 3 中对比了稠密单尺度二维特征图，稀疏单尺度二维特征图 [1] 以及本文提出的稀疏多尺度二维特征图。可以发现在当视频长度较长时，使用稀疏多尺度二维特征图可以大幅减少时间和内存的开销。在图 4 中该研究也与其他方法在 TACoS 上进行了对比。当研究人员使用一个隐层参数量较小的模型 MS-2D-TAN (Small) 时, 该研究的方法可以在保证速度和内存开销稍小的前提下，比其他方法获得更高的精度。而使用较大参数量的 MS-2D-TAN 可以进一步提高精度。

定义|时间走向二维，基于文本的视频时间定位新方法兼顾速度与精度( 三 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)