NVIDIA集成AI超算中心经验,打造AI就绪型数据中心( 九 )

▲ DGX POD 管理软件层

DGX POD 管理软件层由 Kubernete 容器协调框架上运行的各项服务组成 , 可通过网络(PXE)为动态主机配置协议(DHCP)和全自动 DGX OS 软件配置提供服务 。

通过使用其简单的用户界面 , 管理员可在由 Kubernetes 和 Slurm 管理的域中移动 DGX 服务器 。 未来 Kubernetes 增强功能预计在纯 Kubernetes 环境中 , 支持所有 DGX POD 用例 。

DGX POD 上的 NVIDIA AI 软件可借助 Ansible 配置管理工具进行管理 , 白皮书中有提供其开源的软件管理堆栈和文档在 Github 上的链接 。

智东西认为 , DGX POD 一站式交付节点解决方案 , 不仅能加速数据中心的 AI 部署效率 , 同时也通过提供更强大的算力 , 大幅度提升数据的利用效率 。

当前 , 很多数据中心刚刚踏入或计划踏入 AI 的大门 , 而当下主流的深度学习算法必须配备专业的 AI 基础设施 。 基于 NVIDIA DGX POD 的架构方案 , 对于快速构建大规模 AI 计算集群非常具有参考价值 。 随着此类基础架构逐渐普及 , 更多数据中心将得以消除设备与资本预算之间的鸿沟 。

推荐阅读