模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022( 二 )


视频帧的重要性计算
研究人员使用了三种途径衡量视频帧对于模型决策的重要性:Grad-CAM , Zero-padding 和 Mean-padding 。 Grad-CAM 在由 CAM 计算得到的 attention map 中针对每一帧进行均值计算 , 该均值则为视频各帧的重要性度量 。 而 Zero-padding 使用 0 来替换第i视频帧中的所有像素值 , 并计算替换前后的损失值的变化程度 。 变化程度越高说明第 i 视频帧越重要 。 类似地 , Mean-padding 使用临近帧的均值替换第i视频帧 。 通过以上三种方式 , 可计算得到在不同模型下视频帧的重要性程度 , 并以此作为模型的时序判别模式 。
时序判别模式相似度计算
由上述方法计算视频数据x在模型A上的视频帧重要性得分为

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

, 其中T表示输入视频帧的数目 。 那么针对模型A和模型B , 可得到

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

, 结合 Spearman’s Rank Correlation , 可计算模型间时序判别模式的相似性

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

, 即

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

其中 ,

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

执行基于重要性值的排序操作并返回视频各帧的排序值 。

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

的值在-1和1之间 , 当其等于0时表示模型A和模型B间的判别模式不存在关系 , 而-1或者1则表示明确的单调关系 。

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

的值越大则模型间的判别模式越相似 。 基于此 , 可实现不同视频模型时序判别模式间关系的度量 。

模式|首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
文章图片

不同视频模型间判别模式的相似程度
上图为 6 个视频模型间的判别模式关系热图 。 在不同模型设计架构下 , Non-Local、SlowFast 和 TPN 间的时序判别模式相似程度较低;而在相同设计架构下 , 分别使用 3D Resnet-50 和 3D Resnet-101 作为 backbone 的视频模型具有更加相似的时序判别模式 。 以上趋势在三种视频帧重要性计算方法中都得到了验证 。 由此 , 可在实验上证明该论文的假设 , 即不同视频模型结构会导致不同的时序判别模式 。
时序平移攻击方法

推荐阅读