特斯拉为何坚守纯视觉路线?



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


文章图片



特斯拉为何坚守纯视觉路线?


【特斯拉为何坚守纯视觉路线?】近日 , 特斯拉中国在线下与媒体分享了其采用纯视觉方案的思路与研究进展 。
坚持视觉感知 用AI神经网络技术提升辅助驾驶能力
如图1所示 , Andrej说:“我们希望能够打造一个类似动物视觉皮层的神经网络连接 , 模拟大脑信息输入和输出的过程 。 就像光线进入到视网膜当中 , 我们希望通过摄像头来模拟这个过程 。 ”

图1 摄像头模拟人类图像处理流程示意
多任务学习神经网络架构HydraNets , 通过一个主干网络处理8个摄像头传入进来的原始数据 , 利用RegNet残差网络和BiFPN算法模型统一处理 , 得出不同精度下的各类型图像特征 , 供给不同需求类型的神经网络任务所用 。

图2 多任务学习神经网络架构HydraNets
不过由于该结构处理的是单个摄像头的单帧图片画面 , 在实际应用时候遇到很多瓶颈;于是在次结构之上加入了Transformer神经网络结构 , 使得原本提取的二维的图像特征 , 变为了多个摄像头拼合起来的三维向量空间的特征 , 从而大大提升了识别率和精准度 。
还没完 , 由于仍是单帧的画面 , 所以还需要时间维度和空间维度 , 以让车辆拥有特征“记忆”功能 , 用于应对“遮挡”、“路牌”等多种场景 , 最终实现以视频流的形式 , 将行驶环境的特征提取出来 , 形成向量空间 , 让车辆能够精准、低延迟地判断周围环境 , 形成4D向量空间 , 这些视频形式特征的数据库为训练自动驾驶所用 。

图3 视频化4D向量空间的神经网络架构
不过由于城市自动驾驶与高速自动驾驶不同 , 车辆规划模块有两大难题 , 其一是行车方案不一定有最优解 , 其局部最优解会很多 , 也就意味着同样的驾驶环境 , 自动驾驶可以选择很多种可能的解决方案 , 并且都是好的方案;其二是维度较高 , 车辆不仅需要做出当下的反应 , 还需要为接下来的一段时间做好规划 , 估算出位置空间、速度、加速度等诸多信息 。
所以特斯拉选择两个途径解决规划模块这两大难题 , 一个是用离散搜索方式解决局部最优解的“答案” , 以每1.5毫秒2500次搜索的超高效率执行;另一个是用连续函数优化来解决高维度问题 。 通过离散搜索方式先得出一个全局最优解 , 然后利用连续函数优化来平衡多个维度的诉求 , 例如舒适型、平顺性等 , 得出最终的规划路径 。
此外 , 除了要为自己做规划 , 还要“估算”和猜测其他物体的规划 , 即用同样的方式 , 基于对其他物体的识别以及基础的速度、加速度等参数 , 然后替其他车辆规划路径 , 并以此应对 。

推荐阅读