英特尔携手青云QingCloud、戴尔科技集团构建云端创新力( 三 )

青云QingCloud平台研发总监陈海泉表示:“除了云主机的硬件方面,在云主机的软件方面,我们在云平台上集成了Linux做的发行版,它的核心特点是充分利用了英特尔CPU的各个指令集,让软件效能有大幅度提升。也就是说,除了在硬件上我们用英特尔的技术改进我们的业务性能,在软件上也有很大的提升。”

据了解,青云QingCloud对于VNNI的测试多数是图像识别方面的应用,主要基于INT8。此前,不少多数商用深度学习应用在训练与推理工作负载中使用32位浮点精度 (FP32)。与FP32相比,INT8有着更小的数值精度和动态范围,因此在深度学习中采用INT8推理方式,需要着重解决计算执行时的信息损失问题,在数据集校准后确定映射缩减的参数。英特尔高级矢量扩展指令集(AVX-512)拥有512位宽融合乘加 (FMA) 内核指令,这些指令支持低数值精度乘法和高精度累加。较低的精度一方面可以更好地使用高速缓存,减少带宽瓶颈,加速在内存层级中的数据传输,另一方面乘法器需要更少的芯片面积和功率,硬件可能以较低的精度支持更高的OPS。

基于VNNI,英特尔深度学习加速技术提供了多条全新的宽融合乘加 (FMA) 内核指令,可用于支持8位或16位低精度数值相乘,这对于需要执行大量矩阵乘法的深度学习计算而言尤为重要。有了这一升级,用户在执行INT8推理时,对系统内存的要求至多可减少75%,更低的内存和所需带宽,以及更快的低数值精度运算速度,使得系统的整体性能大幅增长。英特尔相关负责人透露,英特尔对TensorFlow、Caffe等主流的AI框架均进行了优化,使得处理器在VNNI的加持下应用效果显著提升。

推荐阅读