参数|1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3( 三 )_模型|训练|token|任务|通用|参数

文章图片

此外，虽然完整版 GLaM 有 1.2T 的总参数，但在推理过程中每个 token 仅激活 97B 参数（1.2T 的 8%）的子网。

文章图片

扩展
GLaM 有两种扩展方式：1) 扩展每层的专家数量，其中每个专家都托管在一个计算设备中；2) 扩展每个专家的大小以超出单个设备的限制。为了评估扩展属性，该研究在推理时比较每个 token 的 FLOPS 相似的相应密集模型。

文章图片

通过增加每个专家的大小， zero-shot 和 one-shot 的平均性能。随着专家大小的增长，推理时每个 token 预测的 FLOPS 也会增加。
如上图所示，跨任务的性能与专家的大小成比例。在生成任务的推理过程中， GLaM 稀疏激活模型的性能也优于 FLOP 类似的密集模型。对于理解任务，研究者观察到它们在较小的规模上性能相似，但稀疏激活模型在较大的规模上性能更好。
数据效率
训练大型语言模型计算密集，因此提高效率有助于降低能耗。该研究展示了完整版 GLaM 的计算成本。

文章图片

模型推理（左）和训练（右）的计算成本（GFLOPS）。
这些计算成本表明 GLaM 在训练期间使用了更多的计算，因为它在更多的 token 上训练，但在推理期间使用的计算却少得多。下图展示了使用不同数量的 token 进行训练的比较结果，并评估了该模型的学习曲线。

文章图片

随着训练中处理了更多的 token ，稀疏激活型和密集模型在 8 项生成任务上的平均 zero-shot 和 one-shot 性能。

文章图片

随着训练中处理了更多的 token ，稀疏激活型和密集模型在 21 项理解任务上的平均 zero-shot 和 one-shot 性能。
结果表明，稀疏激活模型在达到与密集模型相似的 zero-shot 和 one-shot 性能时，训练时使用的数据显著减少。并且，如果适用的数据量相同，稀疏型模型的表现明显更好。
最后，谷歌对 GLam 的能效进行了评估：

文章图片

训练期间， GLaM 与 GPT-3 的能耗比较。
虽然 GLaM 在训练期间使用了更多算力，但得益于 GSPMD（谷歌 5 月推出的用于常见机器学习计算图的基于编译器的自动化并行系统）赋能的更高效软件实现和 TPUv4 的优势，它在训练时耗能要少于其他模型。

参数|1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3( 三 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)