腾讯AI Lab x 王者荣耀:开放让AI+游戏想象力落地( 三 )

早期游戏中的AI,大部分是通过人工规则的方法来实现的,这类方法就包括了有限状态机和行为树。有限状态机的方法是定义有限的行为状态,通过判别条件来触发不同的状态转移。这个方法的优点是设计简单、容易实现,缺点在于随状态增多而急剧复杂。

行为树也是一个在游戏中比较常用的方法,它通过穷举所有行为作为节点,条件驱动下逐级遍历确定当前行为。这个方法的优点是逻辑清晰,容易拓展,缺点在于难以适应复杂行为,且实现拟人化非常困难。

近期的AI+游戏研究,大部分是基于深度学习的方法,主要包含两大类,一个是监督学习或模仿学习,一个是强化学习。监督学习是通过海量有标记的训练数据为基础,推导出行为预测函数。这个方法的优点在于能够模拟不同级别的目标行为,做到很好的拟人化。缺点在于过度依赖于数据,特别是标注数据的质量。

另外一类方法是强化学习,这种方法,通过构建奖励和惩罚刺激环境的角度出发,优化AI行为逻辑。这个方法的优点在不依赖已有数据并且能够探索出新的策略,甚至于超越当前人类的认知。

推荐阅读