硬件|这就是华为速度：2.69分钟完成BERT训练！新发CANN 5.0加持，还公开了背后技术( 三 )_速度|模型|训练|性能|版本|场景

此外，推理引擎还包括Ascend CL（Ascend Computing Language ，昇腾统一编程接口）全栈能力调用，即使是多路复杂的音视频处理等特殊场景也能轻松应对，以及ACE（Ascend Computing Execution ，昇腾计算执行引擎）运行管理等功能；至于在线/离线切换的推理模式，也让部署场景更加灵活。
在便捷性上， 5.0版本又进一步降低了开发者的使用门槛。
例如，无需开发者手工修改代码， 5.0版本支持模型自动迁移。
又例如，进一步支持混合编程。相比于3.0的手动加载模型， 5.0版本在APP中可以直接调用算子函数，自动完成编译加载并执行：

文章图片

△3.0版本
△5.0版本
再例如，相比3.0 ， 5.0版本现在还能自动生成算子测试代码，省去不少步骤：

文章图片

可以说是对开发者新人也很友好了。
然而，相比于表面带来的更高性能、更全面的功能应用，异构计算架构的性能优化，并不如想象中“随便调调参”一般简单，而是需要大量的技术支撑。
性能优化有多难？
将原本需要跑上几天的模型训练时间，缩减到几小时甚至几秒，背后绝不仅仅靠的是硬件的堆叠。
其中CANN 5.0的一个关键技术，就是集群训练（采用大量机器共同训练模型，以加速训练时间）。
据金颖介绍，相对于单机训练，增加训练模型的机器数量，往往并不一定能收获线性的效率提升。
在训练过程中，多台机器虽然整体上拥有更多算力，但这些算力是分散的，彼此在进行数据交互的过程中，实际上又降低了训练效率，这也一直是集群训练的一个瓶颈。

文章图片

△图源：图虫
昇腾选择用图计算的原理，来分析集群训练的流水线分布、内存分配，针对不同机器的特点进行了架构上的设计，合理分配各个节点中的内存和通讯时间，来提高机器整体的计算效率。
具体来说， CANN 5.0版本在性能优化上，主要自研了4点技术：
其一，任务自动流水。
我们都在打游戏的时候感受过数据加载的痛苦，这是因为硬件需要一定的时间来“反应” ，包括加载计算指令等，但在数据量大的情况下，这显然会极大地延缓整体计算时间。
5.0实现了计算指令和数据载入的多流水并行，载入数据满足分段数据量时，不仅启动后续计算逻辑、还保持数据继续载入，进一步“压榨”硬件处理器的并行计算能力，实现任务衔接。

硬件|这就是华为速度：2.69分钟完成BERT训练！新发CANN 5.0加持，还公开了背后技术( 三 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)