ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 七 )
本文的目标是推进seq2seq的RL的发展 , 以神经机器翻译的bandit学习为例 。 我们的目的是证明从模拟bandit反馈中成功的学习 , 实际上可以从实际的human bandit反馈中学习 。 bandit NMT的承诺是 , 翻译质量的人工反馈比人工参考更容易获得 , 从而通过其数量补偿信号的较弱性质 。 然而 , 人为因素与上述所描绘的RL模拟场景存在一些差异 。 首先 , 人类的reward不是明确的功能 , 而是复杂和不一致的信号 。 例如 , 一般来说 , 每一个输入句都有许多正确的翻译 , 根据很多语境和个人因素 , 每一种翻译都可能有不同的判断 。 第二 , 在现实场景中 , 对可能的翻译空间的探索受到限制 , 在这种场景中 , 用户判断一个显示的翻译 , 但不能期望对另一个翻译进行评分 , 更不用说对大量的备选翻译进行评分 。
本文证明了尽管人类反馈在本质上是模糊和片面的 , 但从人类强化学习成功的催化剂是反馈信号的可靠性 。 Bandit NMT在电子商务翻译场景中的首次部署推测 , 由于缺乏用户判断的可靠性 , 当从148K个用户那里学习时 , 结果令人失望 , 因为大约有70K个产品标题翻译获得了5星级评分 。 因此 , 我们提出了这样一个问题:如何以最可靠的方式收集人的反馈 , 以及可靠性在下游任务中将产生什么影响 。 为了回答这些问题 , 我们测量了Bandit NMT的两个反馈任务的注释内和注释间一致性 , 分别使用16个和14个人工评分者进行的800个翻译的基数反馈(5分制)和顺序反馈(成对偏好) 。 或许令人惊讶的是 , 虽然人们通常认为相对反馈更容易提供 , 但我们的调查表明 , 对于这两项任务 , 内部和内部评分机构协议的α-可靠性是相似的 , 标准化5点评分的内部评分机构可靠性最高 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资