NVIDIA集成AI超算中心经验,打造AI就绪型数据中心( 八 )

借助参考框架 , 其 AI 项目所带来的对计算、存储、网络设施的需求均得到满足 。 经过在16台 NVIDIA GPU 上接受数百小时的音乐训练 , 这位特殊的音乐爱好者 , 在“听音识流派”的准确度上 , 甚至超越了人类和传统编程 。

AI 软件:调优 DGX 硬件 , 降低管理门槛

除了设计优化的 DGX 服务器、存储服务器和网络交换机组合 , DGX POD 上还运行一整套适配的 NVIDIA AI 软件堆栈 , 极大简化 DGX POD 的日常操作与维护 , 为大规模多用户 AI 软件开发团队提供高性能的深度学习训练环境 。

▲ NVIDIA AI 软件堆栈

NVIDIA AI 软件包括 DGX 操作系统(DGX OS)、集群管理和协调工具、工作负载调度器、来自 NVIDIA GPU Cloud (NGC) 容器注册表的和优化容器 , 可以为使用者提供优化的操作体验 。

DGX POD 管理软件可根据需要 , 自动创新安装 DGX OS 。 DGX OS 是 NVIDIA AI 软件堆栈的基础 , 基于优化版 Ubuntu Linux 操作系统构建 , 并专门针对 DGX 硬件进行调优 , 支持各种 NVIDIA 库和框架及 GPU 的容器进行时 。

推荐阅读