开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架

蕾师师 发自 凹非寺
量子位 报道 | 公众号 QbitAI
这个机械臂正在完成够、拿、移、推、点、开等6个动作 。

开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架
文章图片

而且动作娴熟 , 还不存在失误 。
更令人意外的是 , 训练这个机械臂 , 只花了短短25分钟 。
即使有人为干扰 , 它也能够成功完成抓取动作 。

开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架
文章图片

还能抓起以前没有见过的物体形状 。
【开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架】
开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架
文章图片

这就是来自加州大学伯克利分校的一项新研究——高效机器操作框架Framework for Efficient Robotic Manipulation(FERM) , 专门对机械臂进行高效率操作的算法训练 。
FERM为什么比其他方法效率高?
目前来看 , 大多数针对机器人训练的的RL算法效率都不是很好 。
采用稀疏奖励的方法训练Dota5游戏的人机操作 , 使之成为达到人类玩家的高手水平 , 需要花180年的游戏时间 。
训练一个机械臂的手势 , 则需要上千万的模拟学习的样本和两周的训练时间 。
Sim2Real和模拟学习这两个方法稍微好点 。 Sim2Real需要接受模拟训练 , 再将训练结果运用到现实事例中 。
模拟学习则需要通过一系列的专业训练示范案例和监督学习 , 才能得出最后的训练策略 , 实验结果非常依赖于输入示范案例的质量 。
FERM优势在于 , 既没有依靠模拟训练转换到现实 , 也不用高度依赖于输入的示范案例的质量 。
而是基于非监督性表征学习和数据扩张技术 , 使用了pixel-based RL 。
因此 , 它仅仅需要10个Demo , 25分钟的训练时间 , 就可以让机器人学会六个动作 。
FERM具体怎么训练?
FERM采用了基于像素的强化学习(pixel-based RL)方法 。

开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架
文章图片

具体而言 , 先收集小部分演示数据 , 并且将这些数据存放在“回放缓冲区”上 。
然后 , 用观察结果结合对比损失量 , 来对编码器进行预训练 。
而后 , 编码器和“回放缓冲区”运用一种线下的数据来加强RL算法 , 对RL智能体进行训练 。
在论文中 , 研究人员总结了FERM主要优点:
1、高效率:FERM可以学习6种不同操作任务的最优策略 , 在15-50分钟的训练时间内完成每项任务 。
2、简单统一的框架:框架结合现有的组成部分 , 将无监督的预训练和在线RL与数据扩充成一个单一高效的框架 。
3、常规轻量设置:实施起来只需要一个机器人、一个GPU、两个摄像头、几个演示 , 以及稀疏奖励函数等等 。

开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架
文章图片

具体的实验结果如何?
实验结果
这项实验采用像素观察的方法执行了一系列任务 。 下图的每一栏显示了初始、中间、结果等三个状态 。 只有当机器人完成任务时 , 才会获得稀疏奖励 。

开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架
文章图片

这个训练算法的效率可谓很高了 。 具体完成时间如下图表格所示 , 在30分钟左右 , 它就可以让机器人学习操作任务 。 而简单的“够”(Reach)动作 , 则只需要三分钟 。

开发|25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架
文章图片

实验结果称 , 它不需要很多的Demo , 也不需要到大量的设备 , 首次完成任务的平均时间为11分钟 , 并且可以在25分钟内训练出6个机械动作 。
所以研究人员骄傲地说:
“据我们所知 , FERM是第一个能在不到一小时的时间内 , 能通过像素点直接完成来自不同组、采用稀疏奖励方法的机器操作任务 。 ”
而根据相关报告 , 未来十年 , 制造业将需要460万个岗位 。 许多制造商也都在转向自动化生产 , 机械自动化将占比越来越高 。 FERM这样的高效训练框架 , 可谓是制造业福音 。
参考链接:
https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/
论文地址:
https://arxiv.org/abs/2012.07975
源代码:
https://github.com/PhilipZRH/ferm
— 完 —
本文系网易新闻?网易号特色内容激励计划签约账号【量子位】原创内容 , 未经账号授权 , 禁止随意转载 。
_原题《25分钟训练机器人学会6个动作 , 伯克利开发高效机器人操纵框架》
阅读原文

    推荐阅读