华为深度解读达芬奇架构：3D Cube计算引擎加速运算( 四 )_IT之家8月22日消息此前

其中，Da Vinci Core只是NPU的一个部分，Da Vinci Core内部还细分成很多单元，包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等，它们各自负责不同的运算任务实现并行化计算模型，共同保障AI计算的高效处理。

图3/6

3D Cube矩阵乘法单元是AI计算的核心，这部分运算由3D Cube完成，Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据，负责向Cube计算单元输送数据和存放计算结果。

虽然Cube的算力很强大，但只能完成矩阵乘运算，还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富，可以覆盖各种基本的计算类型和许多定制的计算类型。

Scalar标量运算单元主要负责AI Core的标量运算，功能上可以看作一个小CPU，完成整个程序的循环控制，分支判断，Cube、Vector等指令的地址和参数计算以及基本的算术运算等。

华为深度解读达芬奇架构：3D Cube计算引擎加速运算( 四 )