NVIDIA集成AI超算中心经验,打造AI就绪型数据中心( 四 )

大数据、AI 与云计算等新兴技术卷起新的浪潮 , 在各类数据中心中形成连锁反应 。 海量数据处理任务涌入数据中心 , 面对人工智能应用的训练和推理 , 令传统的CPU 服务器难以招架 。

深度学习算法属于计算密集型算法 , 与 NVIDIA GPU 计算架构十分契合 。 过去 CPU 需要花数十天完成的计算任务 , 通用 GPU 只用几小时就能完成 , 这大幅提升深度学习等并行处理数据方法的计算效率 , 使得以 GPU 为基础的设备日渐成为各大数据中心进行深度学习训练的首选 。

然而 , 即便部署了强大的硬件设备 , 也不意味着数据中心的 AI 转型计划就万事俱备了 , 还有一个关键问题摆在眼前——架构设计 。

数据中心需要考虑的因素远不止算力 , 还需兼顾网络、存储、电源、散热、管理和软件等方面问题 。

硬件组合不是简单粗暴的积木堆叠 , 并不是说计算节点越多 , 性能就会随之线性增长 。 其计算性能会受制于高速互联网络 , 一旦出现数据拥堵 , 整机系统的效率都可能被拖累 。 另外 , 过多计算硬件堆叠 , 可能导致功耗过大 , 不利于日后的运营 。

推荐阅读