AI也能种黄瓜了,你想尝尝吗?( 三 )

Sonoma的AI方法论

在AI系统框架的搭建上,Sonoma团队选择基于模型的近似贝叶斯强化学习(RL),因为这一方法具有较高的样本效率,并且便于推广。Tran表示:“样本效率对现实世界的应用至关重要。即使在简单环境下,标准的强化学习算法仍需要数以百万计的试验,才可以培训出良好的代理。对于游戏领域而言,这并不是一个问题,一个代理能够随心所欲地玩各种游戏,所以RL在游戏中已经表现得很成功。而在实际应用中(例如黄瓜种植),我们无法承受数百万次的失败尝试,所以我们需要以不同的方式来思考RL。”

为了让强化学习成为能够应对当今粮食问题的可行解决方案,Sonoma团队认为AI代理必须在初始阶段就要像任何现有系统一样强大,并能够随着时间推移不断学习和改进。团队构思了一个能够综合这些特点的框架(见下图)。

AI也能种黄瓜了,你想尝尝吗?

这个框架以训练概率动态模型为起点。这种模型学习类似于模拟器构建,它可以帮助AI代理通过“想象”进行规划。此外,通过模仿学习,AI代理在初始阶段就能像现有的专家级策略那样行事。之后,AI代理将在基于模型的策略持续优化过程上运转,通过每次环境交互来提高其整体性能。

推荐阅读