ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 十 )
我们招募了14名参与者参与配对评分任务 , 16名参与者参与5点评分任务 。 参与者是具有流利或母语德语和英语能力的大学生 。 评分界面如下图所示 。
请注意 , 由于目标是为bandit学习模拟现实场景 , 因此没有提供参考翻译 。
如下表所示 , 评分者间的可靠性指标在5点和成对任务之间存在细微差别 。
5点任务(α=0.2308)的评分者间可靠性与配对任务(α=0.2385)的评分者间可靠性大致相同 。 然而 , 每名参与者的评分标准化(通过标准化到z分) , 显示出5分任务(α=0.2820)的总体评分者间可靠性显著提高 。 这些分数表明 , 无论参与者是否被要求提供cardinal或顺序评分 , 人类评分之间的总体一致性大致相同 。 通过参与者级别的标准化提高了评分者的可靠性 , 这表明参与者可能确实对5点等级的某些区域存在个体偏见 , 标准化过程纠正了这种偏见 。
在评分者内部的可靠性方面 , 配对任务(α=0.5085)的参与者与5点任务(α=0.4014)的参与者之间观察到更好的平均值 。 这表明 , 平均而言 , 人工评分者在比较两个翻译与单独对单个翻译进行评分时 , 会提供更为一致的评分 。 然而 , 在当前样本量下 , 5点和成对评分内部可靠性之间的Welch双样本t测试显示两个任务之间没有显著差异(t(26.92)=1.4362 , p=0.1625) 。 因此 , 很难推断一项任务在获得更一致的响应方面是否明显优于另一项任务 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资