特斯拉为何坚守纯视觉路线?( 二 )


不过全球各地的道路状况千变万化 , 非常复杂 , 如果采用离散搜索的方式会消耗大量资源 , 并且使得决策时间过长 , 所以选择了深度神经网络结合蒙地卡罗搜索树的方式 , 大大提高的决策效率 , 几乎是数量级的差距 。

图5 不同方式下的效率
最终规划模块的整体架构如图5 , 先基于纯视觉方案的架构将数据处理为4D向量空间 , 然后基于之前得到的物体识别以及共享的特征数据 , 再利用深度神经网络寻找全局最优解 , 最终规划结果交给执行机构执行 。

图6 视觉识别+规划、执行整体架构
当然 , 再好的神经网络架构和处理办法 , 都离不开一个有效且庞大的数据库 。 在数据从2D向3D、4D转换过程中 , 约1000多人的人工标注团队也在与时俱进在4D空间上进行标注 , 并且仅需在向量空间中标注后 , 会自动映射入不同摄像头的具体单个画面中 , 大大增加的数据标注量 , 但这些还远远不够 , 人工标注的数据量远远喂不饱自动驾驶所需的训练量 。

图7 4D向量空间中人工标注的演示
由于人更擅长语义识别 , 而计算机更加擅长与几何、三角化、跟踪、重建等 , 所以特斯拉想要创造一个人和计算机“和谐分工”共同标注的模式 。
特斯拉搭建了一个庞大的自动标注流水线 , 用45秒-1分的视频 , 包括大量传感器数据 , 交给神经网络离线学习 , 然后利用大量机器和人工智能算法生成可以用于训练网络的标注数据集 。

图8 视频片段自动标注处理流程
对与可行驶区域例如道路、道线、十字路口等的识别 , 特斯拉使用了NeRF“神经辐射场” , 即一种2D向3D转化的图像处理算法 , 给出既定的XY坐标点数据 , 让神经网络预测地面的高度 , 由此生成无数的XYZ坐标点 , 以及各种语义 , 例如路边、车道线、路面等 , 形成大量的信息点 , 并反向投射到摄像头画面中;然后将其道路数据和之前神经网络识别出来的画面分割结果进行比较 , 并整体优化所有摄像头的图像;同时结合时间维度和空间维度 , 创建出较为完善的重建场景 。

图9 重建道路的演示
利用此技术将不同车辆经过同一地点所重建的道路信息 , 进行交叉比对 , 他们必须在所有位置点信息一致对的上 , 才为预测正确 , 这样共同作用下 , 形成了一种有效的道路表面的标注方法 。

图10 多视频数据标注重叠互相校验
这与高精地图完全不一样 , 所有的视频片段所产生的标注信息只要越来越精确精准 , 标注信息和视频里实际道路情况相符 , 就不必再维护这些数据 。
同时利用这些技术 , 还可以对静态的物体进行识别和重建 , 并且有纹理、没纹理都可以根据这些3D信息点做出标注;这些标注点对于摄像头识别任意障碍物都非常有用 。

图11 静态物体的3D信息点重建
采用离线处理这些数据和标注的另一个好处是 , 单车网络每次只能对其他运动事物进行预测 , 而离线由于数据既定行 , 可以通晓过去和未来 , 就能依照确定的数据 , 忽视遮挡与否 , 对所有的物体的速度、加速度进行预测和校准优化 , 并标注 , 训练网络后来更准确判断其他运动事物 , 便于规划模块进行规划 。

图12 离线对车辆、行人的速度、加速度校对和标注
然后将这些结合起来 , 就形成了对视频数据中 , 所有道路相关、静动态物体的识别、预判和重建 , 并对其动力学数据标注 。

图13 视频片段对周围环境的重建和标注
这样的视频数据标注将成为训练自动驾驶神经网络的核心部分 。 其中一个项目就是在3个月内 , 利用这些数据训练网络 , 成功实现了毫米波雷达所有功能并且更加准确 , 所以去掉了毫米波雷达 。

图14 摄像头几乎无法看到情况下 , 对速度和距离的判断依然精准
验证了这种方式的高度有效 , 那么就需要海量的视频数据来训练 。 所以同时 , 特斯拉还开发了“仿真场景技术” , 可以模拟现实中不太常见的“边缘场景”用于自动驾驶培训 。 如图4所示 , 在仿真场景中 , 特斯拉工程师可以提供不同的环境以及其他参数(障碍物、碰撞、舒适度等) , 极大提升了训练效率 。

图15 仿真场景
特斯拉利用仿真模式训练网络 , 已经用了3亿张图像和50亿个标注来训练网络 , 接下来还会利用该模式继续解决更多的难题 。

图16 仿真模式带来的提升和未来几个月预期

推荐阅读