ICLR 2019论文解读:深度学习应用于复杂系统控制( 五 )
图4/5
图 3. 基于 ICNN 的 MuJoCo locomotion tasks 的控制结果。K=100,300,1000 对应 [4] 中基于模型的强化学习的算法设定,我们测试了在模型预测控制中,不同未来预测区间长度下各任务的回报。
应用一:机器人运动控制
作者首先将提出的深度学习控制框架应用于机器人的控制,使用的是 OpenAI 中的 MuJuCo 机器人仿真平台的四个前向运动任务。我们首先使用随机采样的机器人动作和状态的数据作为初始样本训练一个 ICNN 网络,并结合 DAGGER(AISTATS, Ross et al, 2011, CMU) 以在训练和控制过程中更好地探索和泛化。本文提出的方法相比目前的强化学习方法更加高效、准确。同目前最好的基于模型的强化学习算法 (model-based RL) [4] (2018 ICRA, Nagabandi et al., 2018, Berkeley) 相比,本文提出的方法仅仅使用 20% 的运算时间就可以达到比之前方法高 10% 的控制效果(图 3)。与无模型的深度强化学习算法如 TRPO, DDPG 往往超过 10^6 的样本数量相比,我们的控制方法可以从 10^4 量级的样本中学习到极为准确的动态模型并用于控制。同时我们还可以将该方法得到控制结果作为初始控制策略,然后随着机器人在环境中收集更多的样本,与无模型的强化学习方法 (model-free RL) 结合,在动态系统环境下实现更好的控制效果。
推荐阅读
- 2019英雄联盟全球总决赛|S9的Tian对比S11的Tian,今非昔比,心态炸裂
- 剑网3|剑网3:2019年大型818被铲出,女主简直无底线!
- 2019英雄联盟全球总决赛|三国志战略版S9赛季4套新阵容,3大登庸令新队伍搭配!
- ag战队|AG杀疯了!初晨的露娜永远值得相信,一诺信心回来了,梦回2019
- estar|AG超玩会要小心eStar,阿泰表示,花海梦回2019年,有可能是AG夺冠最大的障碍
- 乌迪尔|LOL:本周3款半价,这款2019年的皮肤,首次在周半价中出现
- iqoo|5G为什么突然不火了?
- 温氏集团2019年经营业绩,净利润为139.06亿元,同比增长251.38%
- 荣耀发布会:智能手机海外出货量2019前三季度同比增长21%
- 三星彩电2019量额第一 2500美元以上高端电视占比超半