基于PaddlePaddle的视频联合时空建模方法在国际赛事夺冠( 三 )

2. 3D卷积网络结构能够同时在空间和时间上建模进而得到令人称心的辨认任务结果。

众所周知,浅层的神经网络与深层神经网络相比,浅层网络在大数据集中,表现出较差的表示学习才干。

当中止大范围数据集中的人类行为辨认任务时,一方面浅层的3D卷积网络得到的视频特征的可辨别性相对深层网络较弱,另一方面,深层的3D卷积网络会招致过大的模型以及在锻炼中和推理阶段中过高的计算本钱。

部分信息和全局信息对辨认视频中的行为都起着十分重要的作用。

例如,在图1(a)中,我们能够经过部分的空间信息来辨认搬砖和搬石头,换而言之,在该图中,部分的空间信息(local spatial information)是我们辨认行为至关重要的要素。

而在图1(b)中,全局时空(global spatial-temporal)线索是用来辨别”摞卡片”和”飞卡片”这两个场景行为的关键证据。

图1部分信息足以辨别”搬砖”和”搬石头”;全局时空信息能够分别”摞卡片”和”飞卡牌”StNet的输入为平均采样的T个部分连续N帧的视频帧。

推荐阅读