助力深度学习!阿里开源可插拔 GPU 共享调度工具( 三 )
Kubernetes 共享 GPU 集群调度
共享 GPU 的集群调度就是能够让更多的模型开发和预测服务共享同一个 GPU 卡 , 进而提高集群中 Nvidia GPU 的利用率 。 而这就需要提供 GPU 资源的划分 , 而这里 GPU 资源划分的维度指的就是 GPU 显存和 Cuda Kernel 线程的划分 。 通常在集群级别谈支持共享 GPU 是以下两件事情:
1.调度
2.隔离 , 我们这里主要讨论的是调度 , 隔离的方案目前需要用户通过应用限制(比如使用 Tensorflow 的per_process_gpu_memory_fraction 来控制) , 未来会提供基于 Nvidia 的 MPS 的可选项 也会考虑 GPU 的方案 。
而对于细粒度的 GPU 卡调度 , 目前 Kubernetes 社区并没有很好的方案 , 这是由于 Kubernetes 对于 GPU 这类扩展资源的定义仅仅支持整数粒度的加加减减 , 无法支持复杂资源的分配 。 比如用户希望使用 Pod A 占用半张 GPU卡 , 这在目前 Kubernetes 的架构设计中无法实现资源分配的记录和调用 。 这里挑战是多卡 GPU 共享是实际矢量资源问题 , 而 Extened Resource 是标量资源的描述 。
针对此问题 , 我们设计了一个 Out Of Tree 的共享 GPU 调度方案 , 该方案依赖于 Kubernetes 的现有的工作机制:
推荐阅读
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- edg战队|亿万中国水友“毒奶”助力EGD夺S11总冠军,你参与了吗?
- 李九|S组才是真正的宝藏!解说李九深度分析KPL秋季赛第三轮,爆发到了
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 手机游戏|LOL手游出现第一位顶级主播,直播教学,全是顶级博主来学习
- ag战队|AG终于有大心脏选手了!一诺啊泽自信心全无,这点真要像妖刀学习
- lck|梦幻西游手游:萌新最强助力?侠义值换银币,比押镖挖宝强多了!