ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性(15)
域外模型在WMT中用MLE训练 。 下表比较了域外基线与以完全监督方式在TED上进一步培训的域适应性模型 。
模拟reward的RL结果 。 首先 , 我们通过将示例翻译与使用GLEU表示RL的参考文献进行比较 , 以及使用smooth的sBLEU表示估计reward和OPL , 来模拟“完全的”和确定性的reward 。 下表列出了第2-5行中的模拟实验结果 。
总结
在这项工作中 , 我们试图解释cardinal反馈和ordinal反馈在NMT的RL训练的可靠性、可学习性和有效性方面有何不同 , 目的是通过human bandit来改善NMT 。 我们的评分研究 , 通过比较5点评分和偏好评分 , 发现它们的可靠性是可以比较的 , 而cardinal评分更容易学习和归纳 , 也更适合本文实验中的RL 。
本文工作报告了NMT的改进 , 利用了RL的实际human bandit反馈 。 实验表明 , 通过从一个比例很小的机器翻译数据集学习 , 可以实现超过1个BLEU的改进 。 由于这种反馈与post-edits和references相比 , 从非专业人士那里得到的更快速且廉价 , 因此我们的结果在未来大规模应用中具有巨大的潜力 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资