nVIDIA|性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行
3月21日,中国本土AI创新企业寒武纪正式发布了新款训练加速卡“MLU370-X8”,搭载双芯片四芯粒封装的思元370,集成寒武纪MLU-Link多芯互联技术,主要面向AI训练任务 。寒武纪MLU370-X8智能加速卡首次整合了双芯片四芯粒的思元370,也就是每张卡两颗芯片,每颗芯片内封装两个Die,因此可提供两倍于思元370加速卡的内存、编解码资源 。
访问购买页面:
京东NVIDIA系列商品汇总
【nVIDIA|性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行】
文章图片
架构基于Cambricon MLUarch03,支持AI训练加速中常见的FP32、FP16、BF16、INT16、INT8、INT4数据格式计算,峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops 。
该卡采用7nm制造工艺,集成48GB LPDDR5内存,内存带宽614.4GB/s,PCIe 4.0 x16系统接口,整卡最大训练功耗250W,全高全长双插槽设计,系统被动散热 。
文章图片
单卡架构图
通过MLU-Link多芯互联技术,提供卡内、卡间互联功能,并专门设计了MLU-Link桥接卡,可实现4张加速卡为一组、8颗思元370芯片全互联 。
每张加速卡通讯吞吐性能200GB/s,带宽为PCIe 4.0的大约3.1倍,可高效执行多芯多卡训练、分布式推理任务 。
文章图片
4卡桥接
文章图片
单机8卡部署配置
文章图片
4卡桥接拓扑
根据官方数据,Cambricon NeuWare SDK实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当 。
多卡加速,借助MLU-Link多芯互联技术、Cambricon NeuWare CNCL通讯库的优化,8卡环境下达到更优的并行加速比,YOLOv3、Transformer、BERT、ResNet101训练任务中,8卡并行平均性能达350W RTX GPU的155% 。
寒武纪未透露对比的NVIDIA 350W RTX GPU是哪一款,从规格来看,350W功耗的目前只有RTX 3090、RTX 3080 Ti 。
当然,一个是专用AI加速卡,一个是GPU通用游戏卡,其实没有太大可比性 。
MLU370-X8产品定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式,同时与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合 。
文章图片
单卡性能对比
文章图片
8卡性能对比
文章图片
推荐阅读
- 项目|天大研发高性能加工机器人 打通自主设计到工程应用全链条
- 项目|天大研发高性能加工机器人 打通从自主设计到工程应用全链条
- 系列|英伟达:为《影子武士3》和《严阵以待》引入 NVIDIA Reflex 支持
- AMD|传闻AMD基于MCM的RX 7000 GPU将比NVIDIA RTX 4000效率更高
- 永州|永州时代高性能锂电池技术联合实验室正式揭牌
- AMD|显卡性能免费提升100% AMD的FSR 2.0画质对比
- 硬件|性能超越索尼IMX766 国产22nm工艺5000万像素传感器问世
- nVIDIA|零售商列表显示3090Ti每套售价近4000美元 是3090的两倍
- nVIDIA|英伟达官网暗示将在GTC 2022大会上推出下一代Hopper架构GPU
- nVIDIA|2.6万元天价 RTX 3090 Ti新卡皇偷跑上架