云之变6:让AI无处不在的云端训练师( 五 )

我们知道 , 深度学习难以离开大数据和规模化训练的支撑 , 二者就像紧密结合的轮轴推动着算法向高性能、高精度的方向发展 , 进而影响整个社会的AI进程 。 但目前市面上只有少数几家头部公有云厂商有类似的服务 。 为什么云端AI训练如何“阳春白雪”?

其中很大一部分原因在于 , 定制化神经网络的训练任务 , 往往需要强大的计算能力 , 也就是GPU集群来保障 。 然而今天 , AI算力依然是一种昂贵的计算资源 , 而云端训练往往会在不训练时将算力资源释放出去 , 实现弹性调配 , 服务商按照实际计算消耗进行付费 , 个人开发者与企业则可以省去购买计算单元或是自建数据中心的高昂开支 , 从而大大降低了AI落地的成本 。

不过 , 目前用户可以选择的云端训练平台并不多 。 主要原因是用于神经训练的GPU芯片几乎由英伟达一家独大 , 云服务商建立训练平台的成本很高 。 后来谷歌、华为分别推出了自己的大规模计算单元 , 起到了一定了市场制衡作用 。 但整体而言 , 训练环节的云端芯片依然难以满足广泛的部署需求 。

推荐阅读