助力深度学习!阿里开源可插拔 GPU 共享调度工具( 六 )
按显存和按卡调度的方式可以在集群内并存 , 但是同一个节点内是互斥的 , 不支持二者并存;要么是按卡数目 , 要么是按显存分配 。
详细设计
[
(https://www.atatech.org/articles/132268#6)前提:
-
依旧延用 Kubernetes Extended Resource 定义 , 但是衡量维度最小单位从 1 个 GPU 卡变为 GPU 显存的 MiB 。 如果所节点使用的 GPU 为单卡 16GiB 显存 , 它对应的资源就是 16276MiB;
-
由于用户对于共享GPU的诉求在于模型开发和模型预测场景 , 在此场景下 , 用户申请的GPU资源上限不会超过一张卡 , 也就是申请的资源上限为单卡 。
而我们的工作首先是定义了两个新的 Extended Resource: 第一个是 gpu-mem , 对应的是 GPU 显存;第二个是 gpu-count , 对应的是 GPU 卡数 。 通过两个标量资源描述矢量资源 并且结合这一资源 , 提供支持共享 GPU 的工作机制 。 下面是基本的架构图:
推荐阅读
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- edg战队|亿万中国水友“毒奶”助力EGD夺S11总冠军,你参与了吗?
- 李九|S组才是真正的宝藏!解说李九深度分析KPL秋季赛第三轮,爆发到了
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 手机游戏|LOL手游出现第一位顶级主播,直播教学,全是顶级博主来学习
- ag战队|AG终于有大心脏选手了!一诺啊泽自信心全无,这点真要像妖刀学习
- lck|梦幻西游手游:萌新最强助力?侠义值换银币,比押镖挖宝强多了!