ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性(13)
令是黄金标准下 , 翻译y1比翻译y2更受欢迎的概率 。 例如 , 人工评分与参考翻译比较:
对于模拟实验——我们缺乏对偏好的真正监督 , 我们计算Q比较两种翻译的sBLEU分数 , 即翻译偏好根据其在sBLEU中的差异进行建模:
我们为reward estimation选择以下神经结构:输入是填充的源和目标子词嵌入 , 每个都用 biLSTM处理 。 它的优点是不需要任何特征提取 , 但仍然在抽象层次上对n-gram特征建模 。
评估方法:reward estimation模型的质量通过测量Spearman的具有ter的ρ来测试的 , 该测试集由1314个翻译组成 , 遵循SQE评估中的标准 。 超参数在另外的1200个TED翻译中被调优 。
结果:下表报告了对模拟和人类reward进行培训的reward estimation的结果 。
当从cardinalreward中训练时 , 模拟分数模型的表现略好于人类评分模型 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资