特斯拉为何坚守纯视觉路线?( 三 )


综上 , 如果要更快速提升自动驾驶网络的能力 , 需要处理海量的视频片段以及运算 。 举个简单的例子 , 为了拿掉毫米波雷达 , 就处理了250万个视频片段 , 生成了超过100亿个标注;而这些 , 让硬件越来越成为发展速度的瓶颈 。
之前特斯拉使用的是一组约3000块GPU、稍低于20000个CPU的训练硬件 , 并为了仿真还加入了2000多台FSD计算机;后来发展到10000块GPU组成的世界排名第五的超级计算机 , 但是即便如此 , 还是远远不够 。

图17目前在使用的超级计算机参数和变化
所以特斯拉决定自己研制超级计算机 。
“工程学的创举”——D1芯片与Dojo超级计算机
当下 , 随着所需处理的数据开始指数级增长 , 特斯拉也在提高训练神经网络的算力 , 因此 , 便有了特斯拉Dojo超级计算机 。
特斯拉的目标是实现人工智能训练的超高算力 , 处理大型复杂的神经网络模式、同时还要扩展带宽、减少延迟、节省成本 。 这就要求Dojo超级计算机的布局 , 要实现空间和时间的最佳平衡 。
如图所示 , 组成Dojo超级计算机的关键单元是特斯拉自主研发的神经网络训练芯片——D1芯片 。 D1芯片采用分布式结构和7纳米工艺 , 搭载500亿个晶体管、354个训练节点 , 仅内部的电路就长达17.7公里 , 实现了超强算力和超高带宽 。

图18 D1芯片技术参数

图19 D1芯片现场展示
如图所示 , Dojo超级计算机的单个训练模块由25个D1芯片组成 。 由于每个D1芯片之间都是无缝连接在一起 , 相邻芯片之间的延迟极低 , 训练模块最大程度上实现了带宽的保留 , 配合特斯拉自创的高带宽、低延迟的连接器;在不到1立方英尺的体积下 , 算力高达9PFLOPs(9千万亿次) , I/O带宽高达36TB/s 。

图20 D1芯片组成的训练模块

图21 训练模块现场展示
得益于训练模块的独立运行能力和无限链接能力 , 由其组成的Dojo超级计算机的性能拓展在理论上无上限 , 是个不折不扣的“性能野兽” 。 如图9所示 , 实际应用中 , 特斯拉将以120个训练模块组装成ExaPOD , 它是世界上首屈一指的人工智能训练计算机 。 与业内其他产品相比 , 同成本下它的性能提升4倍 , 同能耗下性能提高1.3倍 , 占用空间节省5倍 。

图9 训练模块组合成ExaPOD
与强大硬件相匹配的 , 是特斯拉针对性开发的分布式系统——DPU(Dojo Processing Unit) 。 DPU是一个可视化交互软件 , 可以随时根据要求调整规模 , 高效地处理和计算 , 进行数据建模、存储分配、优化布局、分区拓展等任务 。
不久后 , 特斯拉即将开始Dojo超级计算机的首批组装 , 并从整个超级计算机到芯片、系统 , 进行更进一步的完善 。 对于人工智能技术 , 马斯克显然还有更远大的追求 。 这种追求 , 寄托在他开场白中“我们遭遇了一点技术问题 , 希望以后可以用AI来解决”的调侃 , 更在于活动结尾时他许下的“我们会进一步在整个人类世界里畅游”的承诺 。

推荐阅读