自动驾驶数据服务进入2.0时代( 二 )


同时 , 加上高分辨率毫米波雷达、激光雷达的融合感知 , 意味着数据类型、数据量都比普通的前向感知方案增加几个数量级 。
针对上述痛点 , 业内一家有着超过25年历史的人工智能训练数据服务的“尖子生”——澳鹏给出了自己的答案:由于深度学习算法是算力与大数据的产物 , 因此深度学习算法模型的工业化优化 , 也就需要AI数据供应链的工业化 。

“工业化即以自动化、标准化和规模化可扩展方式为标志 。 此前 , AI标注数据的供应基本以作坊式为主 , 难以保证AI标注数据的高质量供给 , 接下来AI标注数据的供给将迎来工业化爆发 。 ”澳鹏数据科技(上海)有限公司产品及研发总监钱程表示 。
钱程介绍 , 在数据的整个生产环节中 , 数据获取、数据准备和模型评估最为费力并涉及海量数据 。 如果处理不当 , 可能会导致项目质量问题和项目启动延迟 。 AI从业者将80%以上的时间都花在数据管理上 , 因此他们需要最佳的工具和服务来完成这一过程中极其关键的部分 。 澳鹏专注研究这三个阶段 , 并与专业从事模型训练和部署的供应商建立战略合作伙伴关系 。
澳鹏数据科技(上海)有限公司销售副总裁马冀则表示:“毫米波和4D代表了未来的标注方向 , 对服务商的标注能力以及研发能力都有很高的要求 。 澳鹏会陪伴客户共同探索和发展高精尖标注诉求 。 目前我们已经有毫米波、4D点云标注等项目正在和客户积极研讨中 , 期待在今年第三季度会有不错的进展 。 ”
最大难题有解此外 , 在自动驾驶领域 , 仅仅根据已知的场景、障碍和潜在事故原因来部署联网自动驾驶车辆还远远不够 。 谁能够实现准确预测 , 并对不寻常的情况做出反应 , 将是接下来自动驾驶技术落地的争夺焦点 。
从Mobileye的RSS , 到特斯拉的“影子模式” , 从通用Cruise的“持续学习机器”到几乎所有企业都在推动的“数据驱动闭环迭代” , 都在强化对于不确定性事件的预测和规避、学习能力 。
以特斯拉为例 , 如何创建高性能训练网络所需的大型数据集 , 不管是依靠手动标记、自动标记和模拟仿真等方式 , 已经成为高阶智能驾驶落地的关键因素 。
该公司的相关负责人强调 , 未来 , 数据的重要性远高于算法 。 同时 , 以模型为中心的机器学习框架 。 正在向以数据为中心的方法进行升级 , “未来 , 开发人员的主要任务是修改数据集 , 而不是优化算法 。 ”
这位负责人坦言 , 特斯拉在训练视觉和规划神经网络时面临的挑战 。 已经不再是纯粹的硬件算力问题 , 唯一可行的方法是用足够多的真实并且是高质量的数据来训练算法 , 从而覆盖几乎所有可能的场景 。

某自动驾驶公司高层表示 , 在数据方面 , 自动驾驶面临的最大痛点便是corner case的积累 。 然而 , 由于不同公司数据采集车的传感器安装位置、采集标准各有不同 , 下游公司通常只能亲自下场采集各种极限工况 , “一步一个脚印地”完成更多的数据积累 。
针对上述问题 , 澳鹏提出了“合成数据”解决方案 , 可以模拟不同的场景并安全高效地完成数据采集 , 实现对于极限工况的有效补充 。
其具体优势为:改进模型的可靠性、比“真实”数据获取更快、可用于边缘案例的补充 , 并可有效保护用户隐私安全 。
现阶段 , 虽然合成数据的使用率很低 , 但业内人士预测 , 到2027年 , 数据市场预计将增长至11.5亿美元 , 即复合年增长率达到48% 。 2030年 , 合成数据的崛起将成为主流大趋势 。
此前 , 澳鹏Appen曾收购人工智能数据平台Mindtech的少数股权 , 双方将开展深度合作 , 提升为客户提供合成数据的能力 。
“我们对与澳鹏的战略合作感到兴奋 , ”Mindtech 首席执行官史蒂夫哈里斯分享道 。 “这将使更多客户能够使用高质量、精确注释的合成数据快速训练他们的人工智能系统 , 同时补充 Appen 现有的真实世界数据收集、管理和注释产品 。 通过合作 , 我们将加速人工智能系统的开发 , 更好地了解人类如何与彼此以及周围的世界互动 。 ”
迎接数据服务的2.0时代总结这家“尖子生”的成绩 , 作为澳大利亚证交所上市的科技公司 , 澳鹏公司已拥有25+年行业积累与广泛的全球客户基础 。
在服务方面 , 公司拥有一支过硬的数据科学家团队 , 可以在服务企业之前了解场景 , 设计如何采集数据/标注数据能真正帮助到企业成功训练模型 ,以结果导向 。

推荐阅读