英特尔携手青云QingCloud、戴尔科技集团构建云端创新力( 三 )_：英特尔携手青云QingCloud、戴尔科技

青云QingCloud平台研发总监陈海泉表示：“除了云主机的硬件方面，在云主机的软件方面，我们在云平台上集成了Linux做的发行版，它的核心特点是充分利用了英特尔CPU的各个指令集，让软件效能有大幅度提升。也就是说，除了在硬件上我们用英特尔的技术改进我们的业务性能，在软件上也有很大的提升。”

据了解，青云QingCloud对于VNNI的测试多数是图像识别方面的应用，主要基于INT8。此前，不少多数商用深度学习应用在训练与推理工作负载中使用32位浮点精度 (FP32)。与FP32相比，INT8有着更小的数值精度和动态范围，因此在深度学习中采用INT8推理方式，需要着重解决计算执行时的信息损失问题，在数据集校准后确定映射缩减的参数。英特尔高级矢量扩展指令集（AVX-512）拥有512位宽融合乘加 (FMA) 内核指令，这些指令支持低数值精度乘法和高精度累加。较低的精度一方面可以更好地使用高速缓存，减少带宽瓶颈，加速在内存层级中的数据传输，另一方面乘法器需要更少的芯片面积和功率，硬件可能以较低的精度支持更高的OPS。

基于VNNI，英特尔深度学习加速技术提供了多条全新的宽融合乘加 (FMA) 内核指令，可用于支持8位或16位低精度数值相乘，这对于需要执行大量矩阵乘法的深度学习计算而言尤为重要。有了这一升级，用户在执行INT8推理时，对系统内存的要求至多可减少75%，更低的内存和所需带宽，以及更快的低数值精度运算速度，使得系统的整体性能大幅增长。英特尔相关负责人透露，英特尔对TensorFlow、Caffe等主流的AI框架均进行了优化，使得处理器在VNNI的加持下应用效果显著提升。