ACL 2018｜海德堡大学：seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 八 )_ACL2018LongPapersSequence-to-Sequenc

在下一步中，我们将讨论人类reward的机器可学习性问题。我们使用深度学习模型，通过回归和序数反馈拟合Bradley-Terry模型来训练reward估计量。可学习性被理解为机器学习概念中可学习性的一种轻微误用，它的问题是，对reward的估计能在多大程度上近似于人类的reward 。我们的实验表明，对于接受标准化基数reward训练的回归模型，与接受配对偏好训练的Bradley-Terry模型相比， reward估计与人类参考的等级相关性更高。这强调了人的反馈信号的可靠性对从中学习到的reward估计质量的影响。

最后，我们研究了整个NMT任务的机器可学习性， Green等人提出了一个问题，即在后期编辑时如何调整一个MT系统。我们使用RL方法进行调优，在调优中，我们的工作与之前的RL在人类reward的关键区别在于，我们的RL场景不是交互式的，而是在离线日志中收集reward 。然后， RL可以通过使用记录的单次人工reward进行离线学习，也可以通过使用估计的reward进行学习。然后， RL可以通过直接使用记录的single-shot人类reward进行离线学习，或者使用估计的reward进行学习。估计reward的一个预期优势是，首先解决一个简单的问题——学习reward estimator而不是完整的RL任务来改进NMT——然后从离线RL的reward estimator中部署无限反馈。我们的结果表明，通过从估计的和记录的人类reward中训练NMT ，可以实现显著的改进，并且将基于回归的reward estimator集成到RL中的效果最好。这就完成了高可靠性影响reward估计质量的论证，进而影响了整个NMT任务的质量。由于我们的训练数据的大小在机器翻译比例上很小，这一结果表明，从人的反馈来看， RL在更大规模的应用方面具有巨大的潜力。