伯克利AI研究院:强化学习是GPT2等自回归语言模型弥补不足的良方?( 六 )

因此另一个简单的解决方法就是在训练时添加对重复性的惩罚 , 事实上 , 在神经文本退化论文发表后不久 , 我就独立地实现了我自己的GPT2波束搜索采样器 。 在重新考虑文本退化问题之后 , 我为重复的字符添加了一个简单的、任意时间可解码惩罚 , 乍一看结果还可以接受 , 但在理论上几乎没有理由这样做 。 最近 , “Neural Text DeGeneration with Unlikelihood Training” (Welleck Kulikov et al. 2019)提出了一种更加复杂的训练时间惩罚方案 , 包括在训练目标函数中添加一项额外惩罚项:

其中Ct是之前已经使用过的符号 。 虽然从经验上来说是成功的 , 但是没有很好的理论理由来解释为什么较少的重复量会更好地模拟潜在的分布 。

曝光误差

通过最大似然来训练自回归语言模型的一个主要问题是曝光误差(exposure bias Ranzato et al. 2015) 。 自回归模型只对从目标语言分布中抽取的样本进行训练和评估 , 而在评估时则输入由该模型生成的样本 。 这个错误会极其迅速地加剧 , 并且人们已经观察到 , GPT2在经过一定次数的训练后 , 其质量急剧下降 , 尽管这已经是公认的事实 。

推荐阅读