ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性(11)

接下来的分析基于两个假设:第一 , 人工评分者的差异在于他们对翻译质量的判断不尽相同;第二 , 评分项目的差异在于某些翻译可能比其他翻译更难判断 。 这允许通过消融分析来研究评估者差异和项目差异对评估者之间的可靠性的影响 , 在消融分析中 , 低质量的判断和困难的翻译被过滤掉 。

下图显示了一个过滤过程 , 在分析过程中 , α分数低于移动阈值的人被从分析中删除 。

当可靠性阈值从0增加到1时 , 测量整个评分者之间的可靠性 。

下图显示了使用翻译分数中的方差实现的类似过滤过程 。

项目差异按从0到1的比例进行规格化 , 从1减去以生成项目差异阈值 。

完成评分任务后 , 我们要求参与者主观判断难度 , 从1分(非常困难)到10分(非常容易) 。 他们还必须说明他们觉得困难的任务的哪些方面:对5分的评分来说 , 最大的挑战似乎是对不同错误类型的权衡 , 以及对很少但有必要错误的长句子的评分 。

推荐阅读