MVDet|ECCV 2020 利用多相机(multi-view)处理严重遮挡下的行人检测和保持社交距离
Jiangmen
作者:澳洲国立大学在读博士 侯云钟
ECCV 2020系列文章专题
第·17·期
本文将分享 澳洲国立大学在读博士侯云钟在ECCV 2020上的新工作 。 一直以来 , 遮挡问题严重影响了识别、检测等诸多计算机视觉系统的性能 。 在这篇文章中 , 作者提出的 MVDet模型通过联合考虑多个相机 , 极大缓解了遮挡对检测系统的影响;此外 , 文章还提出了一个 新的仿真数据集 MultiviewX 。 文章中提出的多相机检测模型 , 也可以应用在 保持社交距离(social distancing)中 , 对抗击疫情提供技术上的支持 。
文章图片
https://arxiv.org/abs/2007.07247
代码链接:
https://github.com/hou-yz/MVDet
文章图片
真实数据集Wildtrack上效果可视化
文章图片
仿真数据集MultiviewX上效果可视化
问题提出:多相机(multi-view)系统
文章图片
下:地面上(鸟瞰) , 多个相机的视野(field of view)交集 。
在一个多相机系统中 , 包含多个同步、有公共视野、标定好的相机 。 在多相机检测系统中 , 由于相机参数已知 , 可以通过假设行人3D包围框(3D bounding box)的直径和高度 , 计算得到每个相机中的2D包围框(2D bounding box) 。 因此 , 多相机检测一般在地面(俯瞰)上评估行人的检测效果 。
利用多相机进行检测 , 还有两个亟待解决的问题:
1.如何联合考虑多个相机的信息?
2. 如何联合考虑地面上相邻位置 , 以做出联合判断?(对于不清楚的位置 , 如果周围没有其他人 , 则大概率该位置无人;若周围十分拥挤 , 则大概率该位置有人)
文章图片
多相机系统的输入输出;以及需要解决的两个问题
解决方法:MVDet网络
1. 联合考虑多相机
文章图片
多相机信息聚合:之前的工作使用anchor box(绿框)代表相机内一个位置的行人信息;本文使用一种anchor-free方法 , 通过行人脚的位置的feature vector表示该位置的信息
1)anchor-free的行人信息表示
之前工作一般利用相机参数和行人3D形状 , 计算每个相机内 , 对应每个位置的anchor box 。 之后 , 再利用anchor box feature(以及ROI pooling)表示该位置的行人信息 。 但是 , 这一类anchor box形状不一定准确 , 导致聚合的信息不准(上图白衣女士坐在地上 , 导致anchor box feature很大一部分都在描述背景而非行人 , 严重影响检测) 。
本文中 , 作者使用了一套anchor-free的信息表示方法 。 对于地面上每个位置 , 直接选取该位置的feature vector作为代表(该feature vector也同时表示站在该处行人的信息) 。
2)利用feature map的投影变换进行多相机信息聚合
利用相机参数 , 可以得到图片像素和地面上坐标的对应关系 。 通过一组地面坐标和一组图像像素的对应 , 可以建立出一张参数化的sampling grid 。
文章图片
该sampling grid完全可导 。 上图给出了利用sampling grid对RGB图像投影的实例 。 同理 , 我们可以对feature map进行投影;并通过连接(concatenate)多张投影后的feature map , 完成anchor free的多相机信息聚合 。
2. 联合考虑地面相邻位置
1)通过大卷积核卷积联合考虑地面相邻位置
文章图片
从左至右依次为:不用大卷积核卷积的系统输出;使用大卷积核卷积的系统输出;真值
之前工作一般利 用条件随机场(conditional random field)完成这一任务 。 本文中 , 作者使用 拥有大卷积核(大感受野)的卷积 , 完成这一操作 , 并得到 全卷积的检测器 MVDet 。
文章图片
MVDet检测器系统框图 。 输入多张图片后 , 利用共享权重的CNN提取出多张feature map , 投影后串联得到对整个场景的信息表述 , 并通过大卷积核卷积 , 输出最终结果 。 监督来自两处:最终输出的地面上行人位置图(occupancy map);以及单目检测结果(辅助) 。
3. 训练及监督
训练中 , MVDet主要使用地面上行人位置图作为监督 。 为了进一步提高性能 , 可以加入单目检测作为辅助(可选) 。
4. 测试
测试时在网络输出后加入 非极大值抑制(NMS)即可 。
实验验证
1. 仿真数据集MultiviewX
利用Unity引擎以及PersonX数据集中提供的3D行人模型 , 我们创建了 一个3D仿真multiview detection数据集 ,MultiviewX 。
文章图片
2. 性能
在真实数据集上 ,MVDet超出之前state-of-the-art方法14.1% MODA性能 。 相比使用Faster RCNN进行单目检测(RCNN projected) , MVDet性能更是远远超出 。
文章图片
3. 帮助保持社交距离
由于MVDet直接输出地面上的行人位置图 , 且对遮挡比较鲁棒 , 该方法也可以帮助保持社交距离 。
作者介绍:
【MVDet|ECCV 2020 利用多相机(multi-view)处理严重遮挡下的行人检测和保持社交距离】侯云钟 , 2018年获得清华大学电子工程系学士学位 。 2019年至今 , 在郑良老师和Stephen Gould老师指导下 , 在澳洲国立大学(Australian National University)攻读博士学位 。 目前 , 他已经在CVPR , ECCV上发表一作文章 。 研究兴趣包括计算机视觉和深度学习 。
推荐阅读
- 平板|小新 Pad Pro 2020 平板开启 OTA7 ZUI 13 灰度推送
- 国际|2020年我国产出卓越科技论文46万余篇
- 排名|2020年我国国际顶尖期刊论文数量排名世界第二 上升2位
- 最新消息|印度创企2021年获360亿美元投资 比2020年增长2倍
- 未来|汾酒荣获2020年度中国食品工业协会科学技术奖两项殊荣
- the|美国疾控中心公布2020年十大死因:心脏病排名第一 癌症第二
- the|CDC:美国人均预期寿命在2020年缩短近2年
- 疫情|中科院报告:2020年中国共出版科普图书近亿册
- 期刊|中国首部科学传播报告:2020年出版科普图书9853.6万册
- 传播|2020年中国新建科普网站2732个