定义|时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度( 四 )


文章图片

图 3 三种不同二维特征图时间开销的对比 。 N 表示多少个单元片段(clip)
定义|时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度
文章图片

图 4 与其他方法的时间和内存开销对比
结语
本文针对基于文本的视频时间定位提出了一种全新的多尺度二维时间表示方式并提出了一种新的多尺度时域邻近网络(MS-2D-TAN) 。 该模型可以很好的利用邻近时域的上下文信息 , 并学出有区分性的视频片段特征 。 该研究的模型设计简单 , 也同时在三个数据集上取得了有竞争力的结果 。
参考文献:
[1] Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language”, AAAI 2020
[2] Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017
[3] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2017
【定义|时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度】[4] Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2013

推荐阅读