伯克利AI研究院:强化学习是GPT2等自回归语言模型弥补不足的良方?( 七 )

未来工作展望

这个问题与强化学习中的许多问题高度相似 , 目前许多工作 , 例如“SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient” (Yu et al. 2016) “Improving Conditional Sequence Generative Adversarial Networks by Stepwise Evaluation” (Tuan et al. 2018) and “Toward Diverse Text Generation with Inverse Reinforcement Learning” (Shi et al. 2018) 使用强化学习来训练序列生成模型中的各个部分 , 从在GAN设置中传播生成器梯度到使用反向强化学习(它本身与GANs紧密相连) 。

在这些基于强化学习的方法对GPT2中的模型这样大的模型变得实用之前 , 还有很长的路要走 。 中间步骤是使用现有的预训练语言模型 , 并在强化学习环境中对它们进行调优 。 此外 , 一个能够很好地量化曝光误差的评估指标对于适当的定量分析也很重要 , 该方向的一篇不错的论文是“Jointly Measuring Diversity and Quality in Text Generation Models” (Montahaei et al. 2019) 。

推荐阅读