ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 九 )

人工MT评分任务

我们用一个通用域和一个适应域的NMT模型来翻译TED语料库的一个子集 , 然后对翻译进行后处理(替换特殊字符 , 恢复大写) , 并过滤出域外和域内的完全相同的翻译 。 为了组成一个均匀的数据集 , 我们首先选择长度为20到40的翻译 , 然后根据字符n-gram F-score(chrF , β=3)和长度的差异对翻译对进行排序 , 挑选出chrf差异最大 , 长度差异最小的前400对翻译 。 这就产生了长度相似但质量不同的翻译对 。

这些对被视为800个独立的翻译 , 进行5点评分 。 从最初的400个翻译对中 , 随机选择100对(或200个独立翻译)进行重复 。 这一共产生了1000个独立的翻译 , 其中600个发生一次 , 200个发生两次 。 翻译被分为五个部分 , 每部分200个翻译 , 其中120个来自未重复的库 , 80个来自重复的库 , 确保每个部分不会出现一次以上的翻译 。 对于成对的任务 , 从原来的400对翻译对中重复同样的100对 。 这总共产生了500对翻译对 。 翻译也被分为五个部分 , 每个部分有100个翻译对 , 其中60个来自未重复库的翻译对 , 40个来自重复库的翻译对 。 每一组都没有重复 。

推荐阅读