AI发展进入2.0时代!英特尔在落地中总结4大经验(13)

AI发展进入2.0时代!英特尔在落地中总结4大经验

图10/14

起初,京东使用了GPU进行部署。

但挑战也很快出现。一方面,在存储设备和GPU分析集群之间复制数据占用了总处理时间的一半。其次,开始尝试使用GPU进行加速时,发现难以进行开发和执行。

具体是在集群环境中,京东遇到了常见的内存不足错误,以及因GPU内存不足而导致的程序崩溃。

事实证明,在集群中以GPU卡为单位的资源管理和分配工作非常复杂,容易出现错误。在多GPU服务器情况下,京东的开发人员不得不手动管理数据分区、任务均衡和容错。另外还存在诸多依赖性(如CUDA),使生产部署变得十分困难。

在GPU中执行图像处理时,还会出现延迟——由于将数据从分布式大数据存储库复制到GPU进行分析,然后再将结果复制回来需要花费时间。

这部分流程所耗费的时间占特征提取总时间的一半。

推荐阅读