谷歌的人工智能使机器人能够在飞行中做出决定

在预印本服务器Arxiv.org本周发表的一篇论文中,来自谷歌大脑、谷歌X和加州伯克利大学的一个研究团队描述了现有人工智能方法的一种扩展,以至于一个代理—— , 例如一个机器人3354 , 在执行之前决定采取行动 。这个想法是 , 模仿一个人或动物的行为将会在未来产生一个更健壮、更不容易出故障的系统 。

谷歌的人工智能使机器人能够在飞行中做出决定

文章插图
【谷歌的人工智能使机器人能够在飞行中做出决定】研究人员指出,尽管视频游戏中的人工智能算法已经取得了成功,机器人捕捉和操作任务,但它们大多数使用的是阻塞的观察-思考-行动范式3354 。一个代理假设环境仍然是静态的,尽管“思考”,所以它的动作将在相同的状态下执行 。在模拟中是这样,但在现实世界中不是这样 。在现实世界中,环境状态随着智能体处理观察和规划下一步操作而演变 。
该团队的解决方案是一个框架 , 可以在机器学习的背景下处理并发环境 。它使用标准的强化学习公式——,公式——通过奖励驱动智能体向目标前进,其中智能体从一组可能的状态中接收一个状态,并根据策略从一组可能的动作中选择一个动作 。环境返回下一个状态和从转移分布中采样的奖励,以便代理可以学习如何最大化每个状态的预期回报 。
除了前面的操作,还有两个额外的特性,——操作选择时间和向量to-to-go(VTG) 3354,有助于封装并发知识 。(研究人员将VTG定义为测量环境状态时要执行的最后一个动作 。)并发操作环境在执行前一个操作并捕获状态之后捕获状态 。选择一个操作并执行它,不管前一个操作是否已经完成—— , 即使这需要中断前一个操作 。
研究人员在真实世界的机器人手臂上进行实验 。他们的任务是抓取和移动垃圾桶里的各种物体 。他们说,他们的框架取得了与基线拥塞模型相当的成功 , 但在策略持续时间方面比拥塞模型快49%,拥塞模型可以测量策略的总执行时间 。此外,并发模型可以执行比基线更“平滑”和更快的轨迹 。
“并发方法可能允许机器人在动态环境中进行控制,在计算动作之前,机器人不可能停止环境,”合著者写道 。"在这些情况下,机器人必须同时思考和行动."
此前,谷歌领导的一项研究描述了一种人工智能系统,该系统通过模仿动物的动作,赋予机器人更大的灵活性 。两位作者认为 , 他们的方法可以促进机器人的发展,使它们能够完成现实世界的任务,例如在多层仓库和配送中心之间运输材料 。

    推荐阅读