伯克利AI研究院：强化学习是GPT2等自回归语言模型弥补不足的良方？( 五 )_编者按在过去的一年中

可以从公式中看到，条件概率在xi处的值总是基于之前的值（），换句话说，为了使建模问题更易于处理，我们转而训练参数化的函数，根据前面的符号来预测下一个符号，并使用附加到原始上下文的新生成的符号作为新上下文重复此操作。接着，我们可以通过对这些条件概率求积，得到对任意给定序列的可能性的估计。

包括分类和翻译在内的许多问题都可以等价地表述为自回归问题，或者可以显著地从一个强大的预训练自回归语言模型中受益，因此自回归语言模型是具有很强的泛化性的，其重要性不言而喻。从这个角度上讲，改进语言建模也可能是解决一般人工智能问题的重要一步。

定向搜索和文本重复性

在提供的GPT2样本中，作者使用top-k滤波和温度进行采样，而不是使用beam搜索，这样可以通过最大化似然得到更高质量的样本。然而令人惊讶的是， “The Curious Case of Neural Text Degeneration” (Holzman et al. 2019)指出GPT2通过更高的预测概率得到的样本实际上质量更差，并且采样得到的文本趋向于高重复性。作者认为这个建模问题本质上是因为最大似然是一个根本错误的采样目标，并提出了核抽样，这种抽样方法可以截断低似然的符号，类似于top-k采样，同时保留长尾分布。然而高似然采样可以从更直观的角度理解，可以认为，既然从理想的语言模型中抽取了一个极大似然样本，根据定义，这个样本将提供最可能出现的英文文本，这已经考虑到了极其乏味和重复的文本的可能性！因此问题是出在训练目标，而不是采样目标。