助力深度学习！阿里开源可插拔 GPU 共享调度工具( 六 )

2019-03-07

按显存和按卡调度的方式可以在集群内并存，但是同一个节点内是互斥的，不支持二者并存；要么是按卡数目，要么是按显存分配。

详细设计

[
(https://www.atatech.org/articles/132268#6)前提：

依旧延用 Kubernetes Extended Resource 定义，但是衡量维度最小单位从 1 个 GPU 卡变为 GPU 显存的 MiB 。如果所节点使用的 GPU 为单卡 16GiB 显存，它对应的资源就是 16276MiB；
由于用户对于共享GPU的诉求在于模型开发和模型预测场景，在此场景下，用户申请的GPU资源上限不会超过一张卡，也就是申请的资源上限为单卡。

而我们的工作首先是定义了两个新的 Extended Resource：第一个是 gpu-mem ，对应的是 GPU 显存;第二个是 gpu-count ，对应的是 GPU 卡数。通过两个标量资源描述矢量资源并且结合这一资源，提供支持共享 GPU 的工作机制。下面是基本的架构图：

推荐阅读

上一篇：Steam迎来惊艳大作，备好网络了吗？

下一篇：vivo X 27：4800万+升降式前置摄像头，水滴屏，再见！