助力深度学习!阿里开源可插拔 GPU 共享调度工具( 四 )

  • Extended Resource 定义

  • Scheduler Extender 机制

  • Device Plugin 机制

  • Kubectl 的扩展机制


这个 GPU 共享调度扩展的好处是:利用 Kubernetes 的扩展和插件机制实现 , 对于 API Server , Scheduler , Controller Manager 以及 Kubelet 等核心组件没有侵入性 。 这就方便了使用者可以在不同 Kubernetes 版本上应用这个方案 , 无需 rebase 代码和重新构建 Kubernetes 二进制包 。

用户场景

  • 集群管理员:“我想提高集群的 GPU 使用率;在开发过程中 , 多个用户共享模型开发环境 。 ”

  • 应用开发人员:“我希望能够同时在 Volta GPU 上运行多个推理任务 。 ”

[
(https://www.atatech.org/articles/132268#2)目标