ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性(12)
比较不同评分者之间的高一致性和低一致性 , 可以得出关于客观难度的结论 。 我们假设高评分者间一致性表示容易判断 , 而低一致性表示难以判断 。
从MT评分中学习reward estimator
与用于标准NMT培训的数以百万计的句子相比 , 在合理的时间内直接从人类评分员处获得的评分数量非常少 。 通过学习一个关于人类评分集合的reward estimator , 我们试图归纳出一些不可见的翻译 。
从cardinal反馈中学习 。 reward估计模型的输入是源x及其翻译y 。 给定这些输入的cardinal判断 , 对参数ψ的回归模型进行训练 , 使一组n个预测rewardr^和判断r的均方误差(MSE)最小化:
从配对偏好反馈中学习 。 当给出成对偏好而不是cardinal判断时 , Bradley-Terry 模型允许我们训练r的估计量 。
根据Christiano等人 , 令为reward estimator对任意翻译y1优先于任何其他翻译y2的概率:
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资