英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光( 四 )

该设备通过PCIe 3.0 x4或x8接口与主机通信,但不使用NVMe协议。相反,它作为一个标准的PCIe设备运行。英特尔将提供一种软件,可以将推理“作业”完全编排到加速器上,当工作完成时,该软件将通知Xeon CPU。卸载消除了Xeon与其他类型的加速器在PCIe总线上的来回通信,这对CPU来说是一种负担,因为它会生成中断并需要数据移动。相反,NNP-I是一个独立的系统,具有自己的I/O调节(PCH),允许它访问处理所需的数据。

该设备可以支持从10W到50W的不同功率范围,这对性能有影响。M.2接口的15W限制阻碍了插入标准M.2插座的设备的功率传输,但NNP-I在更大的外接卡中可以在最高TDP额定值下运行,这意味着它们提供了更好的性能。在INT8操作中,TOP/s的范围从48到92。根据配置的TDP,芯片的效率为每瓦特2~4.8 TOP/s,但该指标不包括总包功率。

推理计算引擎内部

英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光

深入研究ICE引擎可以发现,每个ICE单元都有额外的4MB SRAM,有助于减少芯内数据移动,这在功耗和时间方面总是比实际的计算操作更昂贵。深度学习计算网格(DL Compute Grid)是一个张量引擎,通过数据和控制结构连接到SRAM和VP6 DSP。DSP引擎可以用于没有专门针对固定功能DL计算网格进行优化的算法。此外,其他代码可以在Ice Lake核心上使用VNNI运行,使多个模型可以同时在设备上运行,也为快速移动的AI空间提供了一些必需的前向兼容性。

推荐阅读