伯克利AI研究院:强化学习是GPT2等自回归语言模型弥补不足的良方?( 六 )
因此另一个简单的解决方法就是在训练时添加对重复性的惩罚 , 事实上 , 在神经文本退化论文发表后不久 , 我就独立地实现了我自己的GPT2波束搜索采样器 。 在重新考虑文本退化问题之后 , 我为重复的字符添加了一个简单的、任意时间可解码惩罚 , 乍一看结果还可以接受 , 但在理论上几乎没有理由这样做 。 最近 , “Neural Text DeGeneration with Unlikelihood Training” (Welleck Kulikov et al. 2019)提出了一种更加复杂的训练时间惩罚方案 , 包括在训练目标函数中添加一项额外惩罚项:
其中Ct是之前已经使用过的符号 。 虽然从经验上来说是成功的 , 但是没有很好的理论理由来解释为什么较少的重复量会更好地模拟潜在的分布 。
曝光误差
通过最大似然来训练自回归语言模型的一个主要问题是曝光误差(exposure bias Ranzato et al. 2015) 。 自回归模型只对从目标语言分布中抽取的样本进行训练和评估 , 而在评估时则输入由该模型生成的样本 。 这个错误会极其迅速地加剧 , 并且人们已经观察到 , GPT2在经过一定次数的训练后 , 其质量急剧下降 , 尽管这已经是公认的事实 。
推荐阅读
- 腾讯|腾讯49亿日元投资目标明确:3款新游明后年全球发行,强化主力IP
- s6|金铲铲之战S6:值得改变阵容的海克斯强化介绍,让你如虎添翼
- 假面骑士|假面骑士revice强化形态印章玩具实物公开 一辉:我要打三个干部
- s6|金铲铲之战s6测试服:海克斯强化有多爽?超肉坦克也能成为大杀器
- 法术|双城之战:羁绊、海克斯强化、装备一文看懂
- 地下城与勇士|DNF:狂人赞助强化毁区!诞生2把16武器,号主选择继续上17
- 精灵宝可梦|《宝可梦》经常被玩家忽略的免疫特性,食草能视为强化手段来用?
- 地下城与勇士|DNF这游戏的刺激点太多,翻牌开盒子强化增幅,深渊闪光
- 假面骑士|假面骑士revice追加情报:强化形态对标闪耀蝗虫 二骑和疾符有关
- 天龙八部|新天龙八部:强化活动来袭,又准备氪多少,还是白嫖稳妥