助力深度学习!阿里开源可插拔 GPU 共享调度工具( 七 )
[
(https://www.atatech.org/articles/132268#7)核心功能模块:
-
GPU Share Scheduler Extender: 利用 Kubernetes 的调度器扩展机制 , 负责在全局调度器 Filter 和 Bind 的时候判断节点上单个 GPU 卡是否能够提供足够的 GPU Mem , 并且在 Bind 的时刻将 GPU 的分配结果通过 annotation 记录到 Pod Spec 以供后续 Filter 检查分配结果 。
-
GPU Share Device Plugin: 利用 Device Plugin 机制 , 在节点上被 Kubelet 调用负责 GPU 卡的分配 , 依赖 scheduler Extender 分配结果执行 。
[
(https://www.atatech.org/articles/132268#8)具体流程:
-
资源上报
GPU Share Device Plugin 利用 nvml 库查询到 GPU 卡的数量和每张 GPU 卡的显存 , 通过ListAndWatch()
将节点的 GPU 总显存(数量 显存)作为另外 Extended Resource 汇报给 Kubelet; Kubelet 进一步汇报给 Kubernetes API Server 。 举例说明 , 如果节点含有两块 GPU 卡 , 并且每块卡包含 16276MiB , 从用户的角度来看:该节点的 GPU 资源为 162762 = 32552; 同时也会将节点上的 GPU 卡数量 2 作为另外一个 Extended Resource 上报 。推荐阅读
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- edg战队|亿万中国水友“毒奶”助力EGD夺S11总冠军,你参与了吗?
- 李九|S组才是真正的宝藏!解说李九深度分析KPL秋季赛第三轮,爆发到了
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 手机游戏|LOL手游出现第一位顶级主播,直播教学,全是顶级博主来学习
- ag战队|AG终于有大心脏选手了!一诺啊泽自信心全无,这点真要像妖刀学习
- lck|梦幻西游手游:萌新最强助力?侠义值换银币,比押镖挖宝强多了!