英特尔首款AI芯片终于面世！10nm工艺，以色列团队设计细节曝光( 四 )_：英特尔首款AI芯片终于面世！10nm工艺

该设备通过PCIe 3.0 x4或x8接口与主机通信，但不使用NVMe协议。相反，它作为一个标准的PCIe设备运行。英特尔将提供一种软件，可以将推理“作业”完全编排到加速器上，当工作完成时，该软件将通知Xeon CPU。卸载消除了Xeon与其他类型的加速器在PCIe总线上的来回通信，这对CPU来说是一种负担，因为它会生成中断并需要数据移动。相反，NNP-I是一个独立的系统，具有自己的I/O调节(PCH)，允许它访问处理所需的数据。

该设备可以支持从10W到50W的不同功率范围，这对性能有影响。M.2接口的15W限制阻碍了插入标准M.2插座的设备的功率传输，但NNP-I在更大的外接卡中可以在最高TDP额定值下运行，这意味着它们提供了更好的性能。在INT8操作中，TOP/s的范围从48到92。根据配置的TDP，芯片的效率为每瓦特2~4.8 TOP/s，但该指标不包括总包功率。

推理计算引擎内部

深入研究ICE引擎可以发现，每个ICE单元都有额外的4MB SRAM，有助于减少芯内数据移动，这在功耗和时间方面总是比实际的计算操作更昂贵。深度学习计算网格(DL Compute Grid)是一个张量引擎，通过数据和控制结构连接到SRAM和VP6 DSP。DSP引擎可以用于没有专门针对固定功能DL计算网格进行优化的算法。此外，其他代码可以在Ice Lake核心上使用VNNI运行，使多个模型可以同时在设备上运行，也为快速移动的AI空间提供了一些必需的前向兼容性。