原创<br> 1.2万亿晶体管,史上最大半导体芯片诞生,比最大的GPU大56.7倍( 三 )

40万AI优化的计算内核

WSE包含400,000个AI优化的计算内核(compute cores)。被称为SLAC(Sparse Linear Algebra Cores),计算内核灵活,支持编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性确保内核可以在日新月异的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数内核针对神经网络计算进行了优化,因此它们可实现业界最佳资源利用率——通常是图形处理单元的三倍或四倍。此外,WSE内核包括Cerebras发明的稀疏性收集技术,以及加速稀疏工作负载(包括0的工作负载)的计算性能,如深度学习。

0在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是0。然而,乘以零是浪费资源,功率和时间的行为。

因为GPU和CPU是密集的执行引擎——引擎的设计是永不遇到0——它们即使在遇到0时也会进行计算。当50%-98%的数据为零时,比如深度学习中的情况,大多数乘法都没有意义。而Cerebras稀疏线性代数内核不会乘以零,所有零数据都会被过滤,直接在硬件中跳过,从而可以释放资源完成其他有用的工作。

推荐阅读