ACL 2018|海德堡大学:seq2seq强化学习中Human Bandit反馈的可靠性和可学习性(16)

论文下载链接:

http://aclweb.org/anthology/P18-1165

推荐阅读