参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3( 三 )



参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
文章图片

此外 , 虽然完整版 GLaM 有 1.2T 的总参数 , 但在推理过程中每个 token 仅激活 97B 参数(1.2T 的 8%)的子网 。

参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
文章图片

扩展
GLaM 有两种扩展方式:1) 扩展每层的专家数量 , 其中每个专家都托管在一个计算设备中;2) 扩展每个专家的大小以超出单个设备的限制 。 为了评估扩展属性 , 该研究在推理时比较每个 token 的 FLOPS 相似的相应密集模型 。

参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
文章图片

通过增加每个专家的大小 , zero-shot 和 one-shot 的平均性能 。 随着专家大小的增长 , 推理时每个 token 预测的 FLOPS 也会增加 。
如上图所示 , 跨任务的性能与专家的大小成比例 。 在生成任务的推理过程中 , GLaM 稀疏激活模型的性能也优于 FLOP 类似的密集模型 。 对于理解任务 , 研究者观察到它们在较小的规模上性能相似 , 但稀疏激活模型在较大的规模上性能更好 。
数据效率
训练大型语言模型计算密集 , 因此提高效率有助于降低能耗 。 该研究展示了完整版 GLaM 的计算成本 。

参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
文章图片

模型推理(左)和训练(右)的计算成本(GFLOPS) 。
这些计算成本表明 GLaM 在训练期间使用了更多的计算 , 因为它在更多的 token 上训练 , 但在推理期间使用的计算却少得多 。 下图展示了使用不同数量的 token 进行训练的比较结果 , 并评估了该模型的学习曲线 。

参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
文章图片

随着训练中处理了更多的 token , 稀疏激活型和密集模型在 8 项生成任务上的平均 zero-shot 和 one-shot 性能 。

参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
文章图片

随着训练中处理了更多的 token , 稀疏激活型和密集模型在 21 项理解任务上的平均 zero-shot 和 one-shot 性能 。
结果表明 , 稀疏激活模型在达到与密集模型相似的 zero-shot 和 one-shot 性能时 , 训练时使用的数据显著减少 。 并且 , 如果适用的数据量相同 , 稀疏型模型的表现明显更好 。
最后 , 谷歌对 GLam 的能效进行了评估:

参数|1.2万亿参数:谷歌通用稀疏语言模型GLaM,小样本学习打败GPT-3
文章图片

训练期间 , GLaM 与 GPT-3 的能耗比较 。
虽然 GLaM 在训练期间使用了更多算力 , 但得益于 GSPMD(谷歌 5 月推出的用于常见机器学习计算图的基于编译器的自动化并行系统)赋能的更高效软件实现和 TPUv4 的优势 , 它在训练时耗能要少于其他模型 。

推荐阅读