基于PaddlePaddle的视频联合时空建模方法在国际赛事夺冠

百度视觉技术部分离PaddlePaddle团队近期开源了用于视频分类的StNet框架。

StNet框架为ActivityNet Kinetics Challenge 2018中夺冠的网络框架。

本次开源了基于ResNet50完成的StNet模型。

该模型提出“super-image"的概念,在super-image上中止2D卷积,建模视频中部分时空相关性。

另外经过temporal modeling block建模视频的全局时空依赖,最后用一个temporal Xception block对抽取的特征序列中止长时序建模。

该框架在动作辨认方面优于一些最先进的办法,能够在辨认精度和模型复杂性之间取得令人称心的均衡。

视频当中的动作辨认任务曾经取得了许多从事计算机视觉与机器学习研讨人员的重点关注。

越来越多的视频录像设备的提高,让更多好玩有趣的视频丰厚了人们的业余生活。

但是过多的视频曾经远远超越人工能够处置的范围,因而展开针对各种应用场景的自动视频了解算法变得尤为重要,比如:视频引荐、人类行为剖析、视频监控等等。

推荐阅读