FPGA保持灵活性同时拥有ASIC级AI性能是可实现的吗?( 六 )

架构改进让FPGA更适合AI计算

要让FPGA具备ASIC级别的性能 , 首先需要提升算力 。 正如前面所说 , 先进半导体工艺对处理器性能的提升非常关键 , 因此Speedster7t采用的是台积电7nm FinFET工艺 。 我们知道7nm工艺的流片成本非常高昂 , 着是否意味着这款7nm的FPGA+只面向云端市场?Robert对雷锋网(公众号:雷锋网)表示 , 在高端应用市场 , 无论是AI的训练还是推理 , 对性能和延迟要求都很高 , 需要7nm工艺 。 当然 , 除了云端 , 针对边缘市场我们会有更小且成本更低的产品 , 满足不用应用和不同市场的续期 。

半导体工艺明确后 , 想让FPGA适合深度学习的算法 , 还需要架构的改进 。 Robert表示 , 传统的基于DSP的FPGA计算单元的设计DSP、LUTs、存储单元是分立的 , 布线也限制了其性能 , 不仅不能高效地支持AI模型的不同数值精度 , 还要消耗额外逻辑的存储资源 。

“我们采用的方法是在传统的架构上进行改进 , 设计出了MLP单元 , 采用阵列式乘累积计算架构 , 每个乘累加单元(MAC)支持最多32个乘法器 , 实现计算的可配置 。 同时 , MLP单元集成分别针对浮点和整型数据的MAC , 可支持4到24位的整点格式和高效的浮点模式 。 并且 , 计算单元与缓存单元紧密相领 , 可以实现更复杂的算法 , 并且不需要使用复杂的布线 , 确保以750 MHz的最高性能将数据传送到MLP 。 ” Robert指出 。

推荐阅读