Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3( 二 )
文章图片
方法架构
NormFormer 对 Pre-LN transformer 做了三处修改:在注意力模块内部应用 head-wise 缩放 , 并添加两个额外的 LayerNorm 操作(一个放在注意力模块后面 , 另一个放在首个全连接层后面) 。 这些修改引入了少量额外的可学得参数 , 使得每个层都能以经济高效的方式改变特征大小 , 进而改变后续组件的梯度大小 。 这些变化的细节如下图 1 所示:
【Pre-LN|归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3】
文章图片
缩放注意力头 。 标准多头注意力操作定义如下:
文章图片
研究者提出通过学得的标量系数γ_i 缩放每个注意力头的输出:
文章图片
额外层归一化以及将所有组件放在一起 。 在 Pre-LN transformer 中 , 每个层 l 将输入 x_l 做出如下修改:
文章图片
相反 , NormFormer 将每个输入 x_l 修改如下:
文章图片
其中 , 新引入了 bolded operations 。
实验结果
对于因果语言模型(Casual Language Model) , 研究者预训练的 CLM 模型分别为 Small(1.25 亿参数)、Medium(3.55 亿参数)、Large(13 亿参数)和 XL(27 亿参数) 。
他们训练了 3000 亿个 token 的基线模型 , 并用等量的 GPU 小时数训练 NormFormer 模型 , 由于归一化操作的额外开销 , 后者通常会减少 2%-6% 的 steps 和 tokens 。
在使用的数据集上 , 研究者发现 GPT-3 中提出的学习率不是最理想的 。 因此 , 对于除了 27 亿参数之外的每个大小的基线和 NormFormer 模型 , 他们通过训练 5 万 steps 的模型并从 {1e?4, 6e?4, 3e?4, 6e?4, 1e?3, 3e?3} 中选择性能最佳的学习率来对学习率进行调整 。 这一过程中获得的学习率如下表 1 所示 , NormFormer 的学习率是 GPT-3 的 3-5 倍 。
文章图片
对于掩码语言模型(Masked Language Model, MLM) , 研究者采用了 Liu et al. (2019)中使用的 RoBERTa-base、Pre-LN 架构和超参数 。 对于基线模型 , 他们对 100 万个 token 预训练了 200 万个 batch , 是原始 roberta-base 训练预算的 1/4 。 相较之下 , NormFormer 在相同时间内运行了 192 万个 batch 。
推荐阅读
- 浦峰|冬奥纪实8k超高清试验频道开播,冬奥结束后转入常态化运转
- 数字化|零售数字化转型显效 兴业银行手机银行接连获奖
- 建设|这一次,我们用SASE为教育信息化建设保驾护航
- 智能化|适老化服务让银行更有温度
- 苏宁|可循环包装规模化应用 苏宁易购绿色物流再上新台阶
- |南安市交通运输局强化渣土 运输安全专项整治
- 测试|图森未来完成全球首次无人驾驶重卡在公开道路的全无人化测试
- 网络化|工信部:2025年建成500个以上智能制造示范工厂
- 识别|沈阳地铁重大变化!能摘口罩吗?
- 智能化|龙净环保:智能型物料气力输送系统的研究及应用成果通过鉴定