如何将深度学习训练速度提升一百倍?PAISoar 来了(15)
目前绿网模型互联网场景每天调用量已经达到亿级别 , 平均的 RT 为80ms左右 。
由于图像计算量复杂以及图像数据量大 , GPU 单机训练已经无法满足目前模型迭代的速度 , 单机2卡训练一个模型需要长达12天之久 , 因此分布式训练势在必行:
3.2 分布式调参
如上文 , 使用 PAISoar 进行分布式训练后 , 绿网模型取得了非常明显的计算加速效果 , 在128 GPU卡上 , 计算加速比能达到101倍 。
分布式训练另一个重要的工作就是调参 , 分布式规模扩大相当于增加 batch size , 如果沿用以前的学习策略和参数(learning Rate等)会导致模型收敛慢或不收敛 , 达不到单机训练的精度 。 我们需要进行调参来让模型训练收敛 。
我们调参所用的方法:
1.训练数据分片 , 在分布式训练时 , 需要对数据进行分片 , 确保每个 worker 读到的数据不一样 , 最好是每几个 epoch 后整体数据 shuffle 一次 , 避免模型对输入数据顺序的依赖 。
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 无尽梦魇|魔兽世界TBC:深度解析“翠绿的宝珠”对哪些职业保值
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?