英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光( 六 )

图表左侧的一系列blocks量化了通过内存结构的每一层移动数据的延迟。从DRAM到DLCompute Grid的数据传输被设置为基线,我们可以看到分层结构中的每一层将数据传输的engine的速度是多么快。从L3缓存访问比DRAM快10倍,而存储在DL Compute Grid中的数据比DRAM快1000倍。

英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光

总之,分层设计允许Xeon向设备卸载几种不同类型的神经网络,每一层都支持一定的精度。请注意,上面的金字塔是根据每瓦特的性能排列的。

英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光

英特尔与ResNet50共享性能数据,运行速度为每秒3600 次推理,芯片设置为10W TDP。这相当于每瓦特4.8 TOP/s的效率测量,符合公司的设计目标。值得注意的是,芯片在较低的TDP范围内效率更高,因此在较高的性能设置下效率可能会有所不同。这些数字也只适用于ASIC,不包括整个M.2设备的功耗。英特尔表示,未来将分享更多的性能数据。

推荐阅读