英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光( 五 )

DL Compute Grid支持FP16和INT8,但也支持INT4、2和1,以支持未来可能对AI算法进行的调整。令人惊讶的是,它不支持bfloat16。通过调整工作负载在ICE单元之间的分布方式,可以优化fabric的带宽或延迟,如下表所示。

英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光

英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光

这里我们可以看到DL Compute Grid的特写视图,它被设计得很灵活,以最大化其4D并行计算能力,以及用于矢量处理的Tensilicon Vision P6 DSP。Tensilica DSP引擎是一个广泛的VLIW机器,支持INT8, 16, 32,和FP16。该引擎是完全可编程的,并具有一个双向管道和DL Compute Grid,可在两个硬件同步单元之间快速传输数据。。

芯片的内存子系统

英特尔首款AI芯片终于面世!10nm工艺,以色列团队设计细节曝光

回到内存子系统,可以看到每个计算单元中所做的设计决策背后的许多合理化。这里我们可以看到硬件控制的L3缓存被分成8个3MB的片段,在AI核心和ICE单元之间共享。该设计经过优化,使数据尽可能接近计算引擎,并具有四个不同的层。

推荐阅读