ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性(11)
接下来的分析基于两个假设:第一 , 人工评分者的差异在于他们对翻译质量的判断不尽相同;第二 , 评分项目的差异在于某些翻译可能比其他翻译更难判断 。 这允许通过消融分析来研究评估者差异和项目差异对评估者之间的可靠性的影响 , 在消融分析中 , 低质量的判断和困难的翻译被过滤掉 。
下图显示了一个过滤过程 , 在分析过程中 , α分数低于移动阈值的人被从分析中删除 。
当可靠性阈值从0增加到1时 , 测量整个评分者之间的可靠性 。
下图显示了使用翻译分数中的方差实现的类似过滤过程 。
项目差异按从0到1的比例进行规格化 , 从1减去以生成项目差异阈值 。
完成评分任务后 , 我们要求参与者主观判断难度 , 从1分(非常困难)到10分(非常容易) 。 他们还必须说明他们觉得困难的任务的哪些方面:对5分的评分来说 , 最大的挑战似乎是对不同错误类型的权衡 , 以及对很少但有必要错误的长句子的评分 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资