助力深度学习!阿里开源可插拔 GPU 共享调度工具( 二 )

----助力深度学习!阿里开源可插拔 GPU 共享调度工具//---- http://

助力深度学习!阿里开源可插拔 GPU 共享调度工具

根据 Gartner 对全球 CIO 的调查结果显示 , 人工智能将成为 2019 年组织革命的颠覆性力量 。 对于人工智能来说 , 算力即正义 , 成本即能力 , 利用 Docker 和 Kubernetes 代表云原生技术为 AI 提供了一种新的工作模式 , 将 GPU 机器放到统一的资源池进行调度和管理 , 这避免了GPU 资源利用率低下和人工管理的成本 。 因此 , 全球主要的容器集群服务厂商 Kubernetes 都提供了 Nvidia GPU 容器集群调度能力 , 但是通常都是将一个 GPU 卡分配给一个容器 。 这虽然可以实现比较好的隔离性 , 确保使用 GPU 的应用不会被其他应用影响;对于深度学习模型训练的场景也非常适合 , 但是 , 针对模型开发和模型预测的场景还是会显得比较浪费 。 基于此 , 大家有了共享 GPU 的集群调度需求 。

推荐阅读