如何将深度学习训练速度提升一百倍?PAISoar 来了( 五 )
分布式扩展后 , 模型需要精细调参才能收敛 , 需要用户有丰富的调参经验 。
对此 , 我们基于 PAI Tensorflow 研发了针对于深度学习模型的高速分布式训练框架 PAISoar , 从硬件到软件打造一套分布式训练场景 E2E 的解决方案:
-
在硬件上 , 我们和 AIS 网络团队一起搭建了集团内部第一套基于 RoCE 的大规模 RDMA 集群 , 并针对于深度学习场景进行了相应的参数调优 , 支持低延迟、高吞吐的无损传输网络;
-
在软件上 , 我们基于 Ring AllReduce 算法在 RDMA 网络上实现了高度优化的 PAISoar 分布式训练框架 , 通过软硬件一体的深度优化大大提高了多机的计算加速比;
-
在 API 层面 , 我们提供了简化用户构建分布式 TF 模型训练的ReplicatedVarsOptimizer , 极大地方便了将单机模型扩展成分布式模型 , 降低了用户构建分布式TF训练代码的难度 , 同时提供支持 warm up 的 learning rate 动态调节方法 , 帮助模型训练更容易的收敛 。
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?