硬件|这就是华为速度:2.69分钟完成BERT训练!新发CANN 5.0加持,还公开了背后技术( 二 )


这使得开发者在训练不同的AI模型时 , 需要在搭载不同异构计算架构的各类处理器之间“反复横跳” , 找到训练效率最高的方法 。
期间不仅要学习各类算子库、张量编译器、调优引擎的特性 , 还只能选用特定的训练框架 , 非常复杂 。
相比之下 , 华为从2018年AI战略制定之初 , 就选择了一条不同的路线 。
华为昇腾计算业务副总裁金颖在采访中表示:
其中 , 昇腾CANN作为平台级的异构计算架构 , 已经经过了3年多的优化 , 迭代了4个大版本 。
现在 , 最新“预热”的CANN 5.0版本 , 在各种不同场景的模型和任务上 , 都表现出了不错的效果 。
昇腾CANN 5.0带来哪些新功能?
相比于昇腾CANN 3.0 , “跨代”的5.0版本带来三大优势:

  • 性能:AI模型训练/推理性能大幅提升 , 用时更短;
  • 功能:推理引擎ATC Suite1.0首次发布 , AI模型推理性能更高、功能更全面;
  • 便捷性:代码开发和调试进一步简化 , 包括支持混合编程等 , 使用门槛更低 。
在性能上 , 无论是训练规模大小、场景类型 , 还是推理效率 , 均有较大提升 。
其中 , 在MLPerf提供的大规模集群训练场景中测试 , 结果如下:

硬件|这就是华为速度:2.69分钟完成BERT训练!新发CANN 5.0加持,还公开了背后技术
文章图片

△数据来源:昇腾
从上图可见 , 原本需要6.25分训练的BERT模型 , 在CANN 5.0的加持下缩短了一倍多 , 只需2.69分钟就能完成训练;至于在3.0版本上需要28秒训练的ResNet , 5.0版本则是“再进化”到了16秒 。
至于常用的一些小模型训练场景(分类、检测、语义分割、NLP等) , 5.0版本的性能提升同样明显:

硬件|这就是华为速度:2.69分钟完成BERT训练!新发CANN 5.0加持,还公开了背后技术
文章图片

△数据来源:昇腾
训练以外 , 5.0版本的推理性能 , 在不同场景(分类、翻译、检测)下提升效果也非常不错:

硬件|这就是华为速度:2.69分钟完成BERT训练!新发CANN 5.0加持,还公开了背后技术
文章图片

△数据来源:昇腾
显然 , 无论是训练还是推理 , CANN 5.0都实现了更高效的任务调度和更好的性能提升 。
在功能上 , CANN 5.0首次发布了昇腾推理引擎软件包ATC Suite1.0(ATC , Ascend Tensor Compiler , 昇腾张量编译器) , 包括模型压缩、张量编译、智能优化和媒体预处理硬加速等能力 。
模型压缩 , 包括量化、稀疏、张量分解等工具 。 像其中的AMCT模型压缩工具 , 就能对浮点数据进行压缩处理 , 来降低模型大小 , 加速推理速度;
智能优化 , 能为用户提供在线调优能力 , 包括图解析、子图/算子自动调优、模型编译优化等功能 , 进一步加速ATC的计算速度 。

推荐阅读