如何将深度学习训练速度提升一百倍?PAISoar 来了( 七 )

2.1.1 网络层

我们和 AIS 网络团队、RDMA 项目团队一起搭建了集团内部第一套基于 RoCE 的大规模 RDMA 集群 , 并针对于深度学习场景进行了相应的参数调优 , 包括:

  • 机器上搭载 Mellanox 25G 网卡支持基于 RoCE v2的 RDMA , 打造低延迟高吞吐通信网络;

  • ASW(接入层交换机 , 32口)和 PSW(聚合层交换机)间采用 8*100Gb 高速传输光纤 , 支持交换机 1:1 收敛比 , 搭建无损传输网络;

  • 构建 TCP 和 RDMA 多级混合流控策略 , 解决各种混跑场景的流量干扰;

2.1.2 软件层