Heidelberg University

本文是德国海德堡大学发表于 ACL 2018 的工作，文章以bandit神经机器翻译（NMT）的任务为例，提出了一种基于Human Bandit反馈的Sequence-to-Sequence（seq2seq）的强化学习（RL），研究了human bandit反馈的可靠性，分析了可靠性对reward估计量学习能力的影响，以及reward估计质量对整个RL任务的影响，证明了其可用性以及在更大规模应用中的潜力。

引言

最近的研究成功地将强化学习（RL）扩展到大规模动作空间游戏中，达到人类水平甚至是超人的表现，受到了高度关注。 RL在监督学习中可以绕过数据注释瓶颈，这使得人们重新关注RL在指数输出空间上的seq2seq学习问题。一种典型的方法是将强化与基于深度seq2seq学习的策略相结合，例如在机器翻译、语义解析或文本摘要中。这些RL方法的重点是通过模拟reward信号，通过评估指标如BLEU、F1-score或ROUGE ，来提高自动评估的性能。尽管RL来自不同的应用领域，但在游戏和seq2seq学习中， RL首先共享一个明确规定的reward函数的存在，例如，通过赢或输游戏来定义，或者通过计算一个自动的序列级评价指标来定义。第二，两个RL应用程序都依赖于对动作空间的充分探索，例如，通过对相同游戏状态下的多个游戏移动进行评估，或者对相同输入进行不同的序列预测。