AI发展进入2.0时代！英特尔在落地中总结4大经验(13)

2019-09-09

图10/14

起初，京东使用了GPU进行部署。

但挑战也很快出现。一方面，在存储设备和GPU分析集群之间复制数据占用了总处理时间的一半。其次，开始尝试使用GPU进行加速时，发现难以进行开发和执行。

具体是在集群环境中，京东遇到了常见的内存不足错误，以及因GPU内存不足而导致的程序崩溃。

事实证明，在集群中以GPU卡为单位的资源管理和分配工作非常复杂，容易出现错误。在多GPU服务器情况下，京东的开发人员不得不手动管理数据分区、任务均衡和容错。另外还存在诸多依赖性（如CUDA），使生产部署变得十分困难。

在GPU中执行图像处理时，还会出现延迟——由于将数据从分布式大数据存储库复制到GPU进行分析，然后再将结果复制回来需要花费时间。

这部分流程所耗费的时间占特征提取总时间的一半。

推荐阅读

上一篇：大和上调汽车股至正面评级吉利上涨4%北汽飙逾3%

下一篇：融合创新万物智联 ——91360助力阿斯利康PiDT项目亮相物博会