云之变6:让AI无处不在的云端训练师( 九 )

1.计算性能的持续升级 。 算力 , 是云端训练的基础保障 , 这里涉及两个基本命题 , 一是绝对规模 , 也就是硬件化计算能力 , 在训练时 , 数据会被分派给众多训练机器 , 再通过反馈及标志变量重新组合在一起 , 从而创建完整的训练模型 , 对GPU驱动、底层库之间的兼容性等硬件提出了不少挑战 。 第二需要考虑的则是精度 , 通过网络优化和超参组合 , 云平台可以利用少量数据就达到出色的训练效果和高性能的模型 , 这对于一些中小微开发者来说有着化不可能为可能的现实意义 。

2.友好模式的开发态 。 简单来说 , 就是降低开发者的训练成本、学习门槛 。 一种方式是提供简单易上手的开发工具和交互界面 。 举个例子 , 神经网络训练的数据集往往达到1PB的数据量 , 即使用1G带宽的网络来传输也需要耗费将近4个月 , 黄花菜都要凉了 , 对此一些云巨头借助新的传输工具 , 如谷歌的Transfer Appliance , 就能在25 小时内将 1PB 的数据装入数据中心 。 还有一些自动化、可视化的任务管理工具 , 能够大大解放开发者的重复劳动 , 比如训练任务一站式托管 , 可以自动跟踪任务的训练状态 , 提供输出日志功能 , 开发者只需实时监控就可以了;

推荐阅读