如何将深度学习训练速度提升一百倍?PAISoar 来了( 八 )
自研了深度优化的 Ring AllReduce 同步算法 , 通过针对 RDMA 网络的深度适配、多路通信融合等关键点优化 , 大大提升了多机的分布式训练性能 。
2.1.3 API 层
-
我们同时提供了简化用户构建分布式TF模型训练的ReplicatedVarsOptimizer , 极大的方便了将单机模型扩展成分布式模型 , 降低了用户构建分布式TF训练代码的难度和学习成本;
-
为方便用户在分布式训练中调参 , 我们提供 lr(learning rate) 的动态调节算法smooth_exponential_decay , 算法中 , lr 经过一定轮数的 warm up , 从一个较小的 lr 平滑增加到目标 lr , 再采用指数衰退 , 每隔固定 epoch 衰退一次 , 动态调节的 lr 可以加速用户调参过程 。
2.2 性能指标
基于 PAISoar , 深度神经网络模型的分布式训练性能提升明显 。
我们使用 Tensorflow 官方 Benchmarks 进行性能测试 。 Tensorflow Benchmarks 是一套 CNN 模型的基准测试集合 , 包括 Inception v3、ResNet-50、ResNet-152、VGG16、Alexnet 等经典 CNN 模型 。 下面是我们分别在1、2、4、8、16、32、64GPU卡规模下测试了 Inception v3、ResNet-50、ResNet-152、VGG16 这4个模型的性能:
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?