ICLR 2019论文解读：深度学习应用于复杂系统控制( 五 )_机器之心发布作者：石媛媛&陈绎泽引言2

图4/5

图 3. 基于 ICNN 的 MuJoCo locomotion tasks 的控制结果。K=100,300,1000 对应 [4] 中基于模型的强化学习的算法设定，我们测试了在模型预测控制中，不同未来预测区间长度下各任务的回报。

应用一：机器人运动控制

作者首先将提出的深度学习控制框架应用于机器人的控制，使用的是 OpenAI 中的 MuJuCo 机器人仿真平台的四个前向运动任务。我们首先使用随机采样的机器人动作和状态的数据作为初始样本训练一个 ICNN 网络，并结合 DAGGER(AISTATS, Ross et al, 2011, CMU) 以在训练和控制过程中更好地探索和泛化。本文提出的方法相比目前的强化学习方法更加高效、准确。同目前最好的基于模型的强化学习算法 (model-based RL) [4] (2018 ICRA, Nagabandi et al., 2018, Berkeley) 相比，本文提出的方法仅仅使用 20% 的运算时间就可以达到比之前方法高 10% 的控制效果（图 3）。与无模型的深度强化学习算法如 TRPO, DDPG 往往超过 10^6 的样本数量相比，我们的控制方法可以从 10^4 量级的样本中学习到极为准确的动态模型并用于控制。同时我们还可以将该方法得到控制结果作为初始控制策略，然后随着机器人在环境中收集更多的样本，与无模型的强化学习方法 (model-free RL) 结合，在动态系统环境下实现更好的控制效果。