伯克利AI研究院:强化学习是GPT2等自回归语言模型弥补不足的良方?( 七 )
未来工作展望
这个问题与强化学习中的许多问题高度相似 , 目前许多工作 , 例如“SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient” (Yu et al. 2016) “Improving Conditional Sequence Generative Adversarial Networks by Stepwise Evaluation” (Tuan et al. 2018) and “Toward Diverse Text Generation with Inverse Reinforcement Learning” (Shi et al. 2018) 使用强化学习来训练序列生成模型中的各个部分 , 从在GAN设置中传播生成器梯度到使用反向强化学习(它本身与GANs紧密相连) 。
在这些基于强化学习的方法对GPT2中的模型这样大的模型变得实用之前 , 还有很长的路要走 。 中间步骤是使用现有的预训练语言模型 , 并在强化学习环境中对它们进行调优 。 此外 , 一个能够很好地量化曝光误差的评估指标对于适当的定量分析也很重要 , 该方向的一篇不错的论文是“Jointly Measuring Diversity and Quality in Text Generation Models” (Montahaei et al. 2019) 。
推荐阅读
- 腾讯|腾讯49亿日元投资目标明确:3款新游明后年全球发行,强化主力IP
- s6|金铲铲之战S6:值得改变阵容的海克斯强化介绍,让你如虎添翼
- 假面骑士|假面骑士revice强化形态印章玩具实物公开 一辉:我要打三个干部
- s6|金铲铲之战s6测试服:海克斯强化有多爽?超肉坦克也能成为大杀器
- 法术|双城之战:羁绊、海克斯强化、装备一文看懂
- 地下城与勇士|DNF:狂人赞助强化毁区!诞生2把16武器,号主选择继续上17
- 精灵宝可梦|《宝可梦》经常被玩家忽略的免疫特性,食草能视为强化手段来用?
- 地下城与勇士|DNF这游戏的刺激点太多,翻牌开盒子强化增幅,深渊闪光
- 假面骑士|假面骑士revice追加情报:强化形态对标闪耀蝗虫 二骑和疾符有关
- 天龙八部|新天龙八部:强化活动来袭,又准备氪多少,还是白嫖稳妥