Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3( 二 )



Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片

方法架构
NormFormer 对 Pre-LN transformer 做了三处修改:在注意力模块内部应用 head-wise 缩放 , 并添加两个额外的 LayerNorm 操作(一个放在注意力模块后面 , 另一个放在首个全连接层后面) 。 这些修改引入了少量额外的可学得参数 , 使得每个层都能以经济高效的方式改变特征大小 , 进而改变后续组件的梯度大小 。 这些变化的细节如下图 1 所示:
【Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3】
Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片

缩放注意力头 。 标准多头注意力操作定义如下:

Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片

研究者提出通过学得的标量系数γ_i 缩放每个注意力头的输出:

Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片

额外层归一化以及将所有组件放在一起 。 在 Pre-LN transformer 中 , 每个层 l 将输入 x_l 做出如下修改:

Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片

相反 , NormFormer 将每个输入 x_l 修改如下:

Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片

其中 , 新引入了 bolded operations 。
实验结果
对于因果语言模型(Casual Language Model) , 研究者预训练的 CLM 模型分别为 Small(1.25 亿参数)、Medium(3.55 亿参数)、Large(13 亿参数)和 XL(27 亿参数) 。
他们训练了 3000 亿个 token 的基线模型 , 并用等量的 GPU 小时数训练 NormFormer 模型 , 由于归一化操作的额外开销 , 后者通常会减少 2%-6% 的 steps 和 tokens 。
在使用的数据集上 , 研究者发现 GPT-3 中提出的学习率不是最理想的 。 因此 , 对于除了 27 亿参数之外的每个大小的基线和 NormFormer 模型 , 他们通过训练 5 万 steps 的模型并从 {1e?4, 6e?4, 3e?4, 6e?4, 1e?3, 3e?3} 中选择性能最佳的学习率来对学习率进行调整 。 这一过程中获得的学习率如下表 1 所示 , NormFormer 的学习率是 GPT-3 的 3-5 倍 。

Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3
文章图片

对于掩码语言模型(Masked Language Model, MLM) , 研究者采用了 Liu et al. (2019)中使用的 RoBERTa-base、Pre-LN 架构和超参数 。 对于基线模型 , 他们对 100 万个 token 预训练了 200 万个 batch , 是原始 roberta-base 训练预算的 1/4 。 相较之下 , NormFormer 在相同时间内运行了 192 万个 batch 。

推荐阅读