Pre-LN|归一化提高预训练、缓解梯度不匹配，Facebook的模型超越GPT-3( 二 )_训练|Post-LN|性能|梯度|匹配|

文章图片

方法架构
NormFormer 对 Pre-LN transformer 做了三处修改：在注意力模块内部应用 head-wise 缩放，并添加两个额外的 LayerNorm 操作（一个放在注意力模块后面，另一个放在首个全连接层后面）。这些修改引入了少量额外的可学得参数，使得每个层都能以经济高效的方式改变特征大小，进而改变后续组件的梯度大小。这些变化的细节如下图 1 所示：
【Pre-LN|归一化提高预训练、缓解梯度不匹配，Facebook的模型超越GPT-3】

文章图片

缩放注意力头。标准多头注意力操作定义如下：

文章图片

研究者提出通过学得的标量系数γ_i 缩放每个注意力头的输出：

文章图片

额外层归一化以及将所有组件放在一起。在 Pre-LN transformer 中，每个层 l 将输入 x_l 做出如下修改：

文章图片

相反， NormFormer 将每个输入 x_l 修改如下：

文章图片

其中，新引入了 bolded operations 。
实验结果
对于因果语言模型（Casual Language Model），研究者预训练的 CLM 模型分别为 Small（1.25 亿参数）、Medium（3.55 亿参数）、Large（13 亿参数）和 XL（27 亿参数）。
他们训练了 3000 亿个 token 的基线模型，并用等量的 GPU 小时数训练 NormFormer 模型，由于归一化操作的额外开销，后者通常会减少 2%-6% 的 steps 和 tokens 。
在使用的数据集上，研究者发现 GPT-3 中提出的学习率不是最理想的。因此，对于除了 27 亿参数之外的每个大小的基线和 NormFormer 模型，他们通过训练 5 万 steps 的模型并从 {1e?4, 6e?4, 3e?4, 6e?4, 1e?3, 3e?3} 中选择性能最佳的学习率来对学习率进行调整。这一过程中获得的学习率如下表 1 所示， NormFormer 的学习率是 GPT-3 的 3-5 倍。

文章图片

对于掩码语言模型（Masked Language Model, MLM），研究者采用了 Liu et al. (2019)中使用的 RoBERTa-base、Pre-LN 架构和超参数。对于基线模型，他们对 100 万个 token 预训练了 200 万个 batch ，是原始 roberta-base 训练预算的 1/4 。相较之下， NormFormer 在相同时间内运行了 192 万个 batch 。

Pre-LN|归一化提高预训练、缓解梯度不匹配，Facebook的模型超越GPT-3( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)