原创<br> 重磅!有史以来最大的半导体芯片诞生!1.2万亿晶体管或用于AI( 六 )

WSE包含400,000个AI优化的计算核心。被称为稀疏线性代数核心的SLAC,计算核心灵活,可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络计算基元进行了优化,因此它们可实现业界最佳利用率 - 通常是图形处理单元的三倍或四倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,以加速稀疏工作负载(包含零的工作负载)的计算性能,如深度学习。

零在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是零。然而,乘以零是浪费硅,功率和时间,因为没有新的信息。

因为图形处理单元和张量处理单元是密集的执行引擎 - 设计为永不遇到零的引擎 - 它们即使在零时也会乘以每个元素。当50-98%的数据为零时,如深度学习中的情况一样,大多数乘法都被浪费了。想象一下,当你的大部分步骤没有让你走向终点时,试图快速前进。由于Cerebras稀疏线性代数核不会乘以零,所有零数据都会被滤除,并且可以在硬件中跳过,从而可以在其位置上完成有用的工作。

推荐阅读