阿里云发布机器学习平台PAI v3.0( 二 )

此外,在深度学习优化分布式引擎方面,PAI 3.0 可以实现单任务支持上千 worker 并发训练,并支持 5k+ 超大规模异构计算集群。

阿里云发布机器学习平台PAI v3.0

PAI 希望实现「用更少的硬件,支持更多业务更快完成业务迭代」。为了完成这个目标,团队有针对性地研发了 GPU 分时复用技术。整套技术实现遵循了数据驱动的思想,包括实时在线性能数据反馈通路、细粒度 GPU 资源复用、虚拟显存以及基于历史数据的资源预估策略这几个关键模块。

此外,PAI 3.0 还发布了大规模图神经网络,缓存机制效率提升 40%,算子速度提升 12 倍,系统端建图时间从数小时降至 5 分钟。

据了解,从 PAI1.0 开始,该机器学习平台已经在阿里巴巴内部使用了 2 年。基于该平台,在淘宝搜索中,搜索结果会基于商品和用户的特征进行排序。通过使用参数服务器,淘宝可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破了规模的瓶颈。

雷锋网 AI 科技评论 雷锋网

推荐阅读