AI圆舞曲里,重接骨头跳舞的展锐( 五 )

这两种算法带来的算力矛盾 , 就好像餐厅请厨师的时候 , 一位厨师只有拿手三道菜 , 但是口味极佳 , 另一位则什么都会做 , 任凭顾客点菜 , 但是却没有拿手菜 , 并且薪酬昂贵 。 这种时候 , 最好的解决办法是什么?

虎贲T710的方案是 , 两个厨师都来上班就好了 。 所谓异构双核NPU , 就是一个NPU专门做顾客经常点的拿手菜 , 也就是对人脸识别等已经比较成熟的图像类应用 , 采用8bit定点量化的方式对常用算子进行加速 , 大幅的减少计算代价;而面对不确定的AI任务需求 , 则让另一个NPU随时待命 , 采用INT4、FP16等量化方式来进行浮点计算加速 。

在异构双核NPU的帮助下 , 虎贲T710的算力达到了4TOPS , 能效比 ≥ 2.5TOPS/W 。 尤其在几大常用神经网络任务中表现出色 , 最终出现了AI算力超过高通旗舰的效果 。

或许有朋友会问 , 这种效果这么好 , 为什么旗舰芯片没有采用?

这就牵扯出虎贲T710背后的产品逻辑:从市场定位上来说 , 旗舰芯片必须追求各种数值的极致化;而展锐的定位是非旗舰 , 没有数值的包袱 。 就像5星酒店或许可以请很多又有拿手菜又什么都会的厨师 , 但是特色餐厅还是要兼顾成本与效果 , 用创新搭配来花小钱办大事 。 而在AI算力超过旗舰芯片的最终结果上来看 , 异构NPU的创新点成果显著 。 在第三代NPU的创新跑道上 , 并没有对错 , 但相比苹果、华为和高通这些顶着炫目数字的玩家 , 展锐的异构双核就好像AI舞台上的舞者 , 用轻盈而优美的方式演绎出对AI需求的理解 。

推荐阅读