人工MT评分任务

我们用一个通用域和一个适应域的NMT模型来翻译TED语料库的一个子集，然后对翻译进行后处理（替换特殊字符，恢复大写），并过滤出域外和域内的完全相同的翻译。为了组成一个均匀的数据集，我们首先选择长度为20到40的翻译，然后根据字符n-gram F-score（chrF ， β=3）和长度的差异对翻译对进行排序，挑选出chrf差异最大，长度差异最小的前400对翻译。这就产生了长度相似但质量不同的翻译对。

这些对被视为800个独立的翻译，进行5点评分。从最初的400个翻译对中，随机选择100对（或200个独立翻译）进行重复。这一共产生了1000个独立的翻译，其中600个发生一次， 200个发生两次。翻译被分为五个部分，每部分200个翻译，其中120个来自未重复的库， 80个来自重复的库，确保每个部分不会出现一次以上的翻译。对于成对的任务，从原来的400对翻译对中重复同样的100对。这总共产生了500对翻译对。翻译也被分为五个部分，每个部分有100个翻译对，其中60个来自未重复库的翻译对， 40个来自重复库的翻译对。每一组都没有重复。