ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 八 )
在下一步中 , 我们将讨论人类reward的机器可学习性问题 。 我们使用深度学习模型 , 通过回归和序数反馈拟合Bradley-Terry模型来训练reward估计量 。 可学习性被理解为机器学习概念中可学习性的一种轻微误用 , 它的问题是 , 对reward的估计能在多大程度上近似于人类的reward 。 我们的实验表明 , 对于接受标准化基数reward训练的回归模型 , 与接受配对偏好训练的Bradley-Terry模型相比 , reward估计与人类参考的等级相关性更高 。 这强调了人的反馈信号的可靠性对从中学习到的reward估计质量的影响 。
最后 , 我们研究了整个NMT任务的机器可学习性 , Green等人提出了一个问题 , 即在后期编辑时如何调整一个MT系统 。 我们使用RL方法进行调优 , 在调优中 , 我们的工作与之前的RL在人类reward的关键区别在于 , 我们的RL场景不是交互式的 , 而是在离线日志中收集reward 。 然后 , RL可以通过使用记录的单次人工reward进行离线学习 , 也可以通过使用估计的reward进行学习 。 然后 , RL可以通过直接使用记录的single-shot人类reward进行离线学习 , 或者使用估计的reward进行学习 。 估计reward的一个预期优势是 , 首先解决一个简单的问题——学习reward estimator而不是完整的RL任务来改进NMT——然后从离线RL的reward estimator中部署无限反馈 。 我们的结果表明 , 通过从估计的和记录的人类reward中训练NMT , 可以实现显著的改进 , 并且将基于回归的reward estimator集成到RL中的效果最好 。 这就完成了高可靠性影响reward估计质量的论证 , 进而影响了整个NMT任务的质量 。 由于我们的训练数据的大小在机器翻译比例上很小 , 这一结果表明 , 从人的反馈来看 , RL在更大规模的应用方面具有巨大的潜力 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资