基于PaddlePaddle的视频联合时空建模方法在国际赛事夺冠( 四 )

部分的连续N帧组合成一个”超图”,这使得”超图”保管原始视频各个部分的时空信息。

所以网络的输入是一个尺寸为T*3N*H*W的张量。

采用2D卷积对T个”超图”中止部分时空关系的建模,能够避免 3D 卷积网络参数量和计算量大的问题,进而生成T个部分时空特征图。

经过堆叠3D卷积/2D卷积模块,对T个部分时空特征图中止全局时空信息的建模,这对了解整个视频起到至关重要的作用。

细致而言,我们选择插入2个时域建模块在Res3和Res4块之后。

时域建模块是为了捕捉视频序列内的长期时域动态,能够应用Conv_3d-BN3d-RELU架构完成。

将3D卷积空间维度的kernel size设置成1以俭省模型的参数量与计算量。

时域Xception模块是为了在特征序列之间中止有效的时域建模,并能轻松地中止端到端优化。

Xception模块的设计主要基于时序1维卷积,采用了channel-wise和temporal-wise分别的战略进一步减少计算量与模型参数量。

推荐阅读