助力深度学习!阿里开源可插拔 GPU 共享调度工具( 六 )

  • 按显存和按卡调度的方式可以在集群内并存 , 但是同一个节点内是互斥的 , 不支持二者并存;要么是按卡数目 , 要么是按显存分配 。

  • 详细设计

    [
    (https://www.atatech.org/articles/132268#6)前提:

    1. 依旧延用 Kubernetes Extended Resource 定义 , 但是衡量维度最小单位从 1 个 GPU 卡变为 GPU 显存的 MiB 。 如果所节点使用的 GPU 为单卡 16GiB 显存 , 它对应的资源就是 16276MiB;

    2. 由于用户对于共享GPU的诉求在于模型开发和模型预测场景 , 在此场景下 , 用户申请的GPU资源上限不会超过一张卡 , 也就是申请的资源上限为单卡 。

    而我们的工作首先是定义了两个新的 Extended Resource: 第一个是 gpu-mem , 对应的是 GPU 显存;第二个是 gpu-count , 对应的是 GPU 卡数 。 通过两个标量资源描述矢量资源 并且结合这一资源 , 提供支持共享 GPU 的工作机制 。 下面是基本的架构图:

    推荐阅读