ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性( 六 )
Heidelberg University
本文是德国海德堡大学发表于 ACL 2018 的工作 , 文章以bandit神经机器翻译(NMT)的任务为例 , 提出了一种基于Human Bandit反馈的Sequence-to-Sequence(seq2seq)的强化学习(RL) , 研究了human bandit反馈的可靠性 , 分析了可靠性对reward估计量学习能力的影响 , 以及reward估计质量对整个RL任务的影响 , 证明了其可用性以及在更大规模应用中的潜力 。
引言
最近的研究成功地将强化学习(RL)扩展到大规模动作空间游戏中 , 达到人类水平甚至是超人的表现 , 受到了高度关注 。 RL在监督学习中可以绕过数据注释瓶颈 , 这使得人们重新关注RL在指数输出空间上的seq2seq学习问题 。 一种典型的方法是将强化与基于深度seq2seq学习的策略相结合 , 例如在机器翻译、语义解析或文本摘要中 。 这些RL方法的重点是通过模拟reward信号 , 通过评估指标如BLEU、F1-score或ROUGE , 来提高自动评估的性能 。 尽管RL来自不同的应用领域 , 但在游戏和seq2seq学习中 , RL首先共享一个明确规定的reward函数的存在 , 例如 , 通过赢或输游戏来定义 , 或者通过计算一个自动的序列级评价指标来定义 。 第二 , 两个RL应用程序都依赖于对动作空间的充分探索 , 例如 , 通过对相同游戏状态下的多个游戏移动进行评估 , 或者对相同输入进行不同的序列预测 。
推荐阅读
- 开罗|开罗游戏发表中文声明:识君代理属于侵权行为,2018年就已解约
- RNG|用数据说话 2018年与2021年的RNG谁更具统治力
- RNG|回应LCK的质疑?国服下血本庆祝RNG夺冠,力度远超2018年
- 王者荣耀|王者荣耀:冰锋战神买亏了?看到2018年先例,笑了
- 间接伤害|阴阳师:真正的SR一姐,2018年至今依然巅峰,恐怕难逃“下岗”
- 圣墟|我心中的2018年网文10大作品:《圣墟》《超神机械师》领衔
- 王者荣耀|新赛季上线1小时,王者玩家就突破2018人,只因策划一个改动
- 战神诸神的黄昏|战神诸神的黄昏对2021年度游戏志在必得
- 受疫情影响,Oracle认证考券延期声明
- 美国国防部要求增加5G投资