基于PaddlePaddle的视频联合时空建模方法在国际赛事夺冠( 二 )

深度学习在静态图像了解上取得了庞大胜利,但是针对视频时空建模中最有效的网络架构是什么还尚不分明,因而我们将新探求的用于视频中部分和全局时空建模的时空网络(StNet)架构与现有的CNN RNN模型或是基于纯3D卷积的办法中止比对剖析,来寻求更有效的网络架构。

由于深度学习在图片辨认中的杰出表现,该技术也被应用到理处置视频分类的场景当中。

这其中就有两个主要的研讨方向,一个是应用CNN RNN框架结构来对视频序列建模,还有一个是单纯的应用卷积网络结构来辨认视频当中的行为。

但是在动作辨认精确性方面,目前的行动辨认办法依然远远落后于人类表现。

现有办法存在如下待改进之处。

1. 关于CNN RNN的办法,CNN前馈网络部分用来空间建模(spatial modeling),LSTM或者GRU用来时域建模(temporal modeling),由于该模型自身的循环结构,这招致了端到端的优化艰难。

1. 2D卷积网络结构在抽取外观特征(appearance features)的时分,只应用了部分的空间信息而疏忽了部分的时域信息;此外,关于时域动态,2D卷积网络仅融合了几个部分片段的分类得分并计算平均值,这种取平均的办法在捕捉时空信息方面的性能有待进步。

推荐阅读