控制|百度飞桨PaddleRobotics新升级!RL解决四足机器人多地形行走难题


近日 , 百度强化学习团队发布了四足机器人控制上的最新研究进展 , 采用自进化的步态生成器与强化学习联合训练 , 从零开始学习并掌握多种运动步态 , 一套算法解决包括独木桥、跳隔板、钻洞穴等多种场景控制难题 。 百度已开源全部仿真环境和训练代码 , 并公开相关论文 。

足式机器人的控制一直是机器人控制领域的研究热点 , 因为相比于常见的轮式机器人 , 足式机器人可以像人类一样灵活地跨越障碍 , 极大地扩展机器人的活动边界 。 波士顿动力(Boston Dynamics)此前对外发布了其商用的第一款四足机器人 Spot , 但是相关的控制算法一直没有对外披露 。 而市面上商业产品采用的控制算法 , 大部分基于麻省理工学院(MIT)开源的第三代的四足控制算法 , 需要依赖大量专家经验 。
近日 , 百度强化学习团队联合小度机器人团队 , 基于飞桨机器人控制算法框架 PaddleRobotics , 发布了四足机器人控制的最新进展 。 该算法首次提出基于自进化的步态生成器来引导强化学习训练 , 通过自主学习 , 机器人能探索出合理的步态并穿越各种各样的高难度场景 。
这个算法到底有多厉害 , 先来一睹为快 。

控制|百度飞桨PaddleRobotics新升级!RL解决四足机器人多地形行走难题
文章图片

图一、四足机器人步态展示(注:演示真机为宇树四足机器人产品) 。
我们可以看到 , 图中四足机器人无论是走独木桥 , 还是上下楼梯 , 都走的十分稳健 。 特别是在独木板场景 , 机器人学会了先把双腿步距缩小 , 以小碎步的方式平稳地穿过了独木板 。 这些步态都是基于强化学习自主学习得到 , 并没有通过任何的领域内专家知识进行引导 。 那么这些行走步态是如何训练出来的呢?
【控制|百度飞桨PaddleRobotics新升级!RL解决四足机器人多地形行走难题】在解读之前 , 我们先回顾下当下三种主流的四足控制算法 。