ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性(15)

域外模型在WMT中用MLE训练 。 下表比较了域外基线与以完全监督方式在TED上进一步培训的域适应性模型 。

模拟reward的RL结果 。 首先 , 我们通过将示例翻译与使用GLEU表示RL的参考文献进行比较 , 以及使用smooth的sBLEU表示估计reward和OPL , 来模拟“完全的”和确定性的reward 。 下表列出了第2-5行中的模拟实验结果 。

总结

在这项工作中 , 我们试图解释cardinal反馈和ordinal反馈在NMT的RL训练的可靠性、可学习性和有效性方面有何不同 , 目的是通过human bandit来改善NMT 。 我们的评分研究 , 通过比较5点评分和偏好评分 , 发现它们的可靠性是可以比较的 , 而cardinal评分更容易学习和归纳 , 也更适合本文实验中的RL 。

本文工作报告了NMT的改进 , 利用了RL的实际human bandit反馈 。 实验表明 , 通过从一个比例很小的机器翻译数据集学习 , 可以实现超过1个BLEU的改进 。 由于这种反馈与post-edits和references相比 , 从非专业人士那里得到的更快速且廉价 , 因此我们的结果在未来大规模应用中具有巨大的潜力 。

推荐阅读