伯克利AI研究院:强化学习是GPT2等自回归语言模型弥补不足的良方?( 五 )
可以从公式中看到 , 条件概率 在xi处的值总是基于之前的值( ) , 换句话说 , 为了使建模问题更易于处理 , 我们转而训练参数化的函数 , 根据前面的符号来预测下一个符号 , 并使用附加到原始上下文的新生成的符号作为新上下文重复此操作 。 接着 , 我们可以通过对这些条件概率求积 , 得到对任意给定序列的可能性的估计 。
包括分类和翻译在内的许多问题都可以等价地表述为自回归问题 , 或者可以显著地从一个强大的预训练自回归语言模型中受益 , 因此自回归语言模型是具有很强的泛化性的 , 其重要性不言而喻 。 从这个角度上讲 , 改进语言建模也可能是解决一般人工智能问题的重要一步 。
定向搜索和文本重复性
在提供的GPT2样本中 , 作者使用top-k滤波和温度进行采样 , 而不是使用beam搜索 , 这样可以通过最大化似然得到更高质量的样本 。 然而令人惊讶的是 , “The Curious Case of Neural Text Degeneration” (Holzman et al. 2019)指出GPT2通过更高的预测概率得到的样本实际上质量更差 , 并且采样得到的文本趋向于高重复性 。 作者认为这个建模问题本质上是因为最大似然是一个根本错误的采样目标 , 并提出了核抽样 , 这种抽样方法可以截断低似然的符号 , 类似于top-k采样 , 同时保留长尾分布 。 然而高似然采样可以从更直观的角度理解 , 可以认为 , 既然从理想的语言模型 中抽取了一个极大似然样本 , 根据定义 , 这个样本将提供最可能出现的英文文本 , 这已经考虑到了极其乏味和重复的文本的可能性!因此问题是出在训练目标 , 而不是采样目标 。
推荐阅读
- 腾讯|腾讯49亿日元投资目标明确:3款新游明后年全球发行,强化主力IP
- s6|金铲铲之战S6:值得改变阵容的海克斯强化介绍,让你如虎添翼
- 假面骑士|假面骑士revice强化形态印章玩具实物公开 一辉:我要打三个干部
- s6|金铲铲之战s6测试服:海克斯强化有多爽?超肉坦克也能成为大杀器
- 法术|双城之战:羁绊、海克斯强化、装备一文看懂
- 地下城与勇士|DNF:狂人赞助强化毁区!诞生2把16武器,号主选择继续上17
- 精灵宝可梦|《宝可梦》经常被玩家忽略的免疫特性,食草能视为强化手段来用?
- 地下城与勇士|DNF这游戏的刺激点太多,翻牌开盒子强化增幅,深渊闪光
- 假面骑士|假面骑士revice追加情报:强化形态对标闪耀蝗虫 二骑和疾符有关
- 天龙八部|新天龙八部:强化活动来袭,又准备氪多少,还是白嫖稳妥