近日 , 百度强化学习团队发布了四足机器人控制上的最新研究进展 , 采用自进化的步态生成器与强化学习联合训练 , 从零开始学习并掌握多种运动步态 , 一套算法解决包括独木桥、跳隔板、钻洞穴等多种场景控制难题 。 百度已开源全部仿真环境和训练代码 , 并公开相关论文 。
足式机器人的控制一直是机器人控制领域的研究热点 , 因为相比于常见的轮式机器人 , 足式机器人可以像人类一样灵活地跨越障碍 , 极大地扩展机器人的活动边界 。 波士顿动力(Boston Dynamics)此前对外发布了其商用的第一款四足机器人 Spot , 但是相关的控制算法一直没有对外披露 。 而市面上商业产品采用的控制算法 , 大部分基于麻省理工学院(MIT)开源的第三代的四足控制算法 , 需要依赖大量专家经验 。
近日 , 百度强化学习团队联合小度机器人团队 , 基于飞桨机器人控制算法框架 PaddleRobotics , 发布了四足机器人控制的最新进展 。 该算法首次提出基于自进化的步态生成器来引导强化学习训练 , 通过自主学习 , 机器人能探索出合理的步态并穿越各种各样的高难度场景 。
这个算法到底有多厉害 , 先来一睹为快 。

文章图片
图一、四足机器人步态展示(注:演示真机为宇树四足机器人产品) 。
我们可以看到 , 图中四足机器人无论是走独木桥 , 还是上下楼梯 , 都走的十分稳健 。 特别是在独木板场景 , 机器人学会了先把双腿步距缩小 , 以小碎步的方式平稳地穿过了独木板 。 这些步态都是基于强化学习自主学习得到 , 并没有通过任何的领域内专家知识进行引导 。 那么这些行走步态是如何训练出来的呢?
【控制|百度飞桨PaddleRobotics新升级!RL解决四足机器人多地形行走难题】在解读之前 , 我们先回顾下当下三种主流的四足控制算法 。
- 第一个方向是开环的步态生成器 , 即提前规划好每条腿的行走轨迹 , 然后周期性地输出控制信号以驱动机器人行走起来 。 这种方式可以让专家根据经验以及实际环境去设计四足机器人的行走方式 , 但是缺点是往往需要大量的调试时间以及领域内的专家知识 。
- 第二个方向是基于模型预测的控制算法(MPC) , 这类方法也是 MIT 之前开源的主要算法 。 算法对环境进行建模后 , 在每个时间步求解优化问题以找到最优的控制信号 。 这类方法的问题是其效果依赖于环境模型的建模准确度 , 并且在实际部署过程中需要耗费比较大的算力去求解最优的控制信号 。
- 第三个方向是基于学习的控制算法 。 前面提到的方法都是提前设计好控制器直接部署到机器人上的 , 并没有体现出机器人自主学习的过程 。 这个方向的大部分工作是基于机器自主学习 , 通过收集机器人在环境中的表现数据 , 调整机器学习模型中的参数 , 以更好地控制四足机器人完成任务 。
推荐阅读
- 相关|科思科技:无人机地面控制站相关设备产品开始逐步发力
- Baidu|百度抢跑元宇宙 却默认“输给”字节?
- 华能|全球首座!华能百兆瓦级分散控制储能电站投运
- Tencent|继百度网盘后腾讯微云也已解除限速 不用单独下载App
- 词条|百度百科上线2500万词条,超750万用户参与共创科普知识内容
- Baidu|百度网盘青春版正式上线 只能传3次文件被吐槽是“一次性App”
- 青春|百度网盘青春版正式上线:免费空间 10GB,支持无差别速率下载
- Create|什么是元宇宙游戏?百度《希壤》成国内第一个吃螃蟹的人
- 量子|百度量子平台2.0重磅发布!推动构建量子计算领域繁荣生态
- 汽车|Apollo迎来7.0重大升级,百度自动驾驶开放平台迈向工具化时代