“鹏城云脑Ⅱ”于去年11月和今年7月接连两次夺得IO 500总榜和10节点榜的双料世界冠军 。 今年5月 , “鹏城云脑Ⅱ”在“MLPerf training V1.0”基准测试中取得了自然语言处理领域模型性能第一名和图像处理领域模型性能第二名的好成绩 。 今年11月 , “鹏城云脑”继去年取得首届AIPerf 500榜单冠军后 , 再次荣获排行榜冠军 。 多次在相关领域国际权威竞赛中斩获头名 , 充分展现了其优越的智能计算性能和软硬件系统协同水平 , 也为鹏城-百度·文心强大技术能力奠定基础 。
飞桨自适应大规模分布式训练和推理“保驾护航”
超大规模模型的训练和推理给深度学习框架带来很大考验 , 需要利用大规模集群分布式计算才能在可接受时间内完成训练或推理的计算要求 , 同时面临着模型参数量单机无法加载、多机通信负载重、并行效率低等难题 。 早在今年4月 , 国产深度学习框架百度飞桨发布了4D混合并行技术 , 可支持千亿参数模型的高效分布式训练 。
但鹏城-百度·文心的训练任务给飞桨带来全新挑战:一方面 , 鹏城-百度·文心的模型结构设计引入诸多小形状的张量计算 , 导致层间计算量差异较大 , 流水线负载不均衡;另一方面 , “鹏城云脑II”的自有软件栈需要深度学习框架高效深度适配 , 才能充分发挥其集群的领先算力优势 。
针对以上挑战 , 并综合考虑当前主流硬件、模型的特点与发展趋势 , 飞桨设计并研发了具备更强扩展能力的端到端自适应大规模分布式训练架构(论文链接:https://arxiv.org/abs/2112.02752) 。 该架构可以针对不同的模型和硬件 , 抽象成统一的分布式计算视图和资源视图 , 并通过硬件感知细粒度切分和映射功能 , 搜索出最优的模型切分和硬件组合策略 , 将模型参数、梯度、优化状态按照最优策略分配到不同的计算卡上 , 达到节省存储、负载均衡、提升训练性能的目的 。
飞桨自适应大规模分布式训练架构使得鹏城-百度·文心的训练性能是传统分布式训练方法2.1倍 , 并行效率高达90% 。 此外 , 为进一步提高模型训练的稳定性 , 飞桨还设计了容错功能 , 可以在不中断训练的情况下自动替换故障机器 , 加强模型训练的鲁棒性 。
在推理方面 , 飞桨基于服务化部署框架Paddle Serving , 通过多机多卡的张量模型并行、流水线并行等一系列优化技术 , 获得最佳配比和最优吞吐 。 通过统一内存寻址(Unified Memory)、算子融合、模型IO优化、量化加速等方式 , 鹏城-百度·文心的推理速度得到进一步提升 。
文章图片
飞桨超大模型训练与推理
推荐阅读
- 最新消息|世界单体容量最大漂浮式光伏电站在德州并网发电
- 测试|图森未来完成全球首次无人驾驶重卡在公开道路的全无人化测试
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- ASUS|华硕预热ROG Flow Z13:称其是“全球最强悍的游戏平板”
- MateBook|深度解析:华为MateBook X Pro 2022的七大独家创新技术
- IT|全球汽车行业价值两年突增至3万亿美元 中国电动车企立大功
- IT|全球供应25亿剂疫苗 科兴上半年营收110亿美元
- IT|全球每日新增确诊病例首超100万例 世卫:两大毒株正掀起“疫情海啸”
- Tesla|特斯拉在美国召回约47.5万辆汽车 接近其去年全球交付总量
- 堆芯|全球首座,世界领跑!