定义|时间走向二维，基于文本的视频时间定位新方法兼顾速度与精度( 四 ) 尺度|精度|定位|文本|视频|片段

文章图片

图 3 三种不同二维特征图时间开销的对比。 N 表示多少个单元片段（clip）

文章图片

图 4 与其他方法的时间和内存开销对比
结语
本文针对基于文本的视频时间定位提出了一种全新的多尺度二维时间表示方式并提出了一种新的多尺度时域邻近网络（MS-2D-TAN）。该模型可以很好的利用邻近时域的上下文信息，并学出有区分性的视频片段特征。该研究的模型设计简单，也同时在三个数据集上取得了有竞争力的结果。
参考文献：
[1] Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language”, AAAI 2020
[2] Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017
[3] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2017
【定义|时间走向二维，基于文本的视频时间定位新方法兼顾速度与精度】[4] Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2013

定义|时间走向二维，基于文本的视频时间定位新方法兼顾速度与精度( 四 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)