ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 十 )

我们招募了14名参与者参与配对评分任务 , 16名参与者参与5点评分任务 。 参与者是具有流利或母语德语和英语能力的大学生 。 评分界面如下图所示 。

请注意 , 由于目标是为bandit学习模拟现实场景 , 因此没有提供参考翻译 。

如下表所示 , 评分者间的可靠性指标在5点和成对任务之间存在细微差别 。

5点任务(α=0.2308)的评分者间可靠性与配对任务(α=0.2385)的评分者间可靠性大致相同 。 然而 , 每名参与者的评分标准化(通过标准化到z分) , 显示出5分任务(α=0.2820)的总体评分者间可靠性显著提高 。 这些分数表明 , 无论参与者是否被要求提供cardinal或顺序评分 , 人类评分之间的总体一致性大致相同 。 通过参与者级别的标准化提高了评分者的可靠性 , 这表明参与者可能确实对5点等级的某些区域存在个体偏见 , 标准化过程纠正了这种偏见 。

在评分者内部的可靠性方面 , 配对任务(α=0.5085)的参与者与5点任务(α=0.4014)的参与者之间观察到更好的平均值 。 这表明 , 平均而言 , 人工评分者在比较两个翻译与单独对单个翻译进行评分时 , 会提供更为一致的评分 。 然而 , 在当前样本量下 , 5点和成对评分内部可靠性之间的Welch双样本t测试显示两个任务之间没有显著差异(t(26.92)=1.4362 , p=0.1625) 。 因此 , 很难推断一项任务在获得更一致的响应方面是否明显优于另一项任务 。

推荐阅读