如何将深度学习训练速度提升一百倍?PAISoar 来了( 十 )
同时 , 我们也和开源的 horovod 进行对比 , 在64 GPU卡下 , Inception v3、ResNet-50、ResNet-152、VGG16四个模型性能分别提升:-6.4%、2%、21%、36% , 整体性能要好于 horovod 。
接下来将会介绍 PAISoar 中的关键技术:RDMA 和 Ring AllReduce 的技术细节 。
2.3 RDMA技术
RDMA(Remote Direct Memory Access) 是一种硬件IO技术 , 通过将传输协议固化在网卡硬件中 , 网卡就可以实现内核旁路(kernel bypass)和零拷贝操作 , 从而大幅降低网络 IO 的延迟时间 , 大幅提高网络吞吐 , 同时不影响 CPU 的负载 。 RDMA 在以太网上有2个标准 , 2002年 , ITEF 制定了 iWARP(Internet Wide Area RDMA Protocol) , 2010年 , IBTA 制定了 RoCE(RDMA over Converged Ethernet)规范 。 阿里数据中心网络里采用 RoCE(v2) 方案 。 在时延测试中 , RoCE 可以达到单向为2 - 3us左右 , 而与之对应的 TCP 时延为10 - 15us 左右 。
为了实现 RoCE 的性能优势 , 以太网需要提供一个无损网络做为基础 , 否则对性能的负面影响非常大 。 以太网的无损机制主要通过端到端的 QoS 来实现 , 即所有的QoS 机制需要在服务器和交换机上做统一的设置 , 包括 DSCP、队列、DCQCN、ECN、PFC 等 。 通过使用这些技术 , 能够保证在 burst , incast 等 IO 场景下 RDMA也有稳定的表现 。 下图是在一个32个节点的集群中做长时间压测时采集到的发送带宽 , 可以看到各个节点的带宽非常稳定 。
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?