华为深度解读达芬奇架构：3D Cube计算引擎加速运算( 五 )_IT之家8月22日消息此前

科普3：3D Cube计算方式的独特优势是什么？

不同于以往的标量、矢量运算模式，华为达芬奇架构以高性能3D Cube计算引擎为基础，针对矩阵运算进行加速，大幅提高单位面积下的AI算力，充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B乘法为例：如果是N个1D的MAC，需要N2的cycle数；如果是1个N2的2D MAC阵列，需要N个Cycle；如果是1个N维3D的Cube，只需要1个Cycle。

图4/6

图中计算单元的数量只是示意，实际可灵活设计

达芬奇架构将大幅提升算力，16*16*16的3D Cube能够显著提升数据利用率，缩短运算周期，实现更快更强的AI运算。举例来说，同样是完成4096次运算，2D结构需要64行*64列才能计算，3D Cube只需要16*16*16的结构就能算出。其中，64*64结构带来的问题是：运算周期长、时延高、利用率低。

达芬奇架构的这一特性也体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片，麒麟810实现强劲的AI算力，在单位面积上实现最佳能效，FP16精度和INT8量化精度业界领先。