视觉|通过传感器计算打造视觉雷达,下一代自动驾驶系统的关键构成( 四 )


过去十年是人工智能技术的黄金十年 , 深度学习改变了计算机视觉整个领域 , 也带来了2D感知各个方向技术的突破 。 2D感知主要有图像分类、图像(物体)识别、细粒度识别(人脸识别)等方向 , 所采用的技术也从最早的模板匹配、线性分类到现在所广泛使用的深层卷积神经网络 , 再到最近刷新各大视觉任务榜单的Transformer 。 随着硬件计算能力的不断提升、算法范式的不断改进、可利用数据资源的不断增长 , 基于摄像头的2D感知已经成为了乘用车智能驾驶的主流方案 , 同时也成为了很多解决方案的核心差异点 。
鉴智机器人核心团队在国内最早基于深度学习在2D视觉感知各个方向开展系统性研究和大规模落地应用 , 在众多全球最具影响力的2D感知AI比赛和评测中获得冠军 , 发表顶级会议和期刊论文几十余篇 , 在多个业务领域实现了人工智能2D感知技术的大规模应用落地 。

视觉|通过传感器计算打造视觉雷达,下一代自动驾驶系统的关键构成
文章图片

(a)目标检测、人体骨骼点

视觉|通过传感器计算打造视觉雷达,下一代自动驾驶系统的关键构成
文章图片

(b)全景分割

视觉|通过传感器计算打造视觉雷达,下一代自动驾驶系统的关键构成
文章图片

(c)360°视觉感知

视觉|通过传感器计算打造视觉雷达,下一代自动驾驶系统的关键构成
文章图片

(d)单目测距
图3:鉴智机器人在2D感知方向具有世界一流的核心能力
2.2 从2D感知到4D感知
如果说2D感知还是在平面上检测、识别、分割物体 , 那么加入深度信息后 , 基础的2D感知即转化为3D感知 。 如果进一步在3D的基础上加入时间这一维度 , 进化得到的则是4D感知 。 在自动驾驶领域 , 4D感知可以完整且连续的探测车辆周围的物体 。
基于深度学习和三维视觉技术不断发展 , 随着Cost Volume、Optical Flow、differentiable Homography、Transformer等技术的成熟 , 以及多传感器融合、众包重建、稠密重建、自动标注等方向不断发展 , 可以高效率的提供高质量、大规模的4D场景数据 , 端到端的4D感知正在成为技术趋势 。 相比于传统的2D感知+后融合的方案 , 端到端的4D感知拥有很多优势 , 可以解决测距抖动较大、多摄像头拼接不准确、时序结果不稳定、迭代效率较低等一系列问题 。
更进一步 , 基于端到端的4D感知 , 可以进行更好的4D预测 , 一方面可对于交通参与者进行更优的运动轨迹预测 , 从而实现性能更加优异的规划控制;另一方面可对于道路行驶区域预测更加精细的3D结构化信息 , 在线生成局部实时3D地图 , 降低对高精地图等基础设施的依赖 。

推荐阅读