视频帧的重要性计算
研究人员使用了三种途径衡量视频帧对于模型决策的重要性:Grad-CAM , Zero-padding 和 Mean-padding 。 Grad-CAM 在由 CAM 计算得到的 attention map 中针对每一帧进行均值计算 , 该均值则为视频各帧的重要性度量 。 而 Zero-padding 使用 0 来替换第i视频帧中的所有像素值 , 并计算替换前后的损失值的变化程度 。 变化程度越高说明第 i 视频帧越重要 。 类似地 , Mean-padding 使用临近帧的均值替换第i视频帧 。 通过以上三种方式 , 可计算得到在不同模型下视频帧的重要性程度 , 并以此作为模型的时序判别模式 。
时序判别模式相似度计算
由上述方法计算视频数据x在模型A上的视频帧重要性得分为
文章图片
, 其中T表示输入视频帧的数目 。 那么针对模型A和模型B , 可得到
文章图片
, 结合 Spearman’s Rank Correlation , 可计算模型间时序判别模式的相似性
文章图片
, 即
文章图片
其中 ,
文章图片
执行基于重要性值的排序操作并返回视频各帧的排序值 。
文章图片
的值在-1和1之间 , 当其等于0时表示模型A和模型B间的判别模式不存在关系 , 而-1或者1则表示明确的单调关系 。
文章图片
的值越大则模型间的判别模式越相似 。 基于此 , 可实现不同视频模型时序判别模式间关系的度量 。
文章图片
不同视频模型间判别模式的相似程度
上图为 6 个视频模型间的判别模式关系热图 。 在不同模型设计架构下 , Non-Local、SlowFast 和 TPN 间的时序判别模式相似程度较低;而在相同设计架构下 , 分别使用 3D Resnet-50 和 3D Resnet-101 作为 backbone 的视频模型具有更加相似的时序判别模式 。 以上趋势在三种视频帧重要性计算方法中都得到了验证 。 由此 , 可在实验上证明该论文的假设 , 即不同视频模型结构会导致不同的时序判别模式 。
时序平移攻击方法
推荐阅读
- 平板|MIUI 13推出无字模式,内测机型名单公布
- 模式|荣耀60和iQOO Neo5S,全面对比告诉你谁更值得买
- 商汤|商汤终成AI第一股:挂牌联交所后股价高开 业内人士更关注其盈利和商业模式
- 数据|天问一号火星离子与中性粒子分析仪首个成果面世
- 材料|真我 GT2 Pro 预热:50MP 舰双主摄、realme 首个显微镜镜头
- 疫苗|国内首个自主研发四价流脑疫苗正式获批
- Xiaomi|小米公布小米12基于Android 12的全系内核源码
- 画质|AMD RSR 分辨率缩放技术曝光:基于 FSR,无需游戏适配即可使用
- 启发|小米 MIUI 13 无字模式开启内测,去除桌面应用名称显示
- 样本|国内首个在库运行超百万份生物样本全自动化库落户广州