ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 八 )

在下一步中 , 我们将讨论人类reward的机器可学习性问题 。 我们使用深度学习模型 , 通过回归和序数反馈拟合Bradley-Terry模型来训练reward估计量 。 可学习性被理解为机器学习概念中可学习性的一种轻微误用 , 它的问题是 , 对reward的估计能在多大程度上近似于人类的reward 。 我们的实验表明 , 对于接受标准化基数reward训练的回归模型 , 与接受配对偏好训练的Bradley-Terry模型相比 , reward估计与人类参考的等级相关性更高 。 这强调了人的反馈信号的可靠性对从中学习到的reward估计质量的影响 。

最后 , 我们研究了整个NMT任务的机器可学习性 , Green等人提出了一个问题 , 即在后期编辑时如何调整一个MT系统 。 我们使用RL方法进行调优 , 在调优中 , 我们的工作与之前的RL在人类reward的关键区别在于 , 我们的RL场景不是交互式的 , 而是在离线日志中收集reward 。 然后 , RL可以通过使用记录的单次人工reward进行离线学习 , 也可以通过使用估计的reward进行学习 。 然后 , RL可以通过直接使用记录的single-shot人类reward进行离线学习 , 或者使用估计的reward进行学习 。 估计reward的一个预期优势是 , 首先解决一个简单的问题——学习reward estimator而不是完整的RL任务来改进NMT——然后从离线RL的reward estimator中部署无限反馈 。 我们的结果表明 , 通过从估计的和记录的人类reward中训练NMT , 可以实现显著的改进 , 并且将基于回归的reward estimator集成到RL中的效果最好 。 这就完成了高可靠性影响reward估计质量的论证 , 进而影响了整个NMT任务的质量 。 由于我们的训练数据的大小在机器翻译比例上很小 , 这一结果表明 , 从人的反馈来看 , RL在更大规模的应用方面具有巨大的潜力 。

推荐阅读