团队|最会玩游戏的,是 AI( 三 )


同时 , 在整个对战期间 , 为了减少 AI 进行原地打转、空放技能等无意义操作 , 还利用 Action Mask 对技能使用的条件进行了限制 , 保证 AI 不会在无法命中目标或者还未冷却时释放技能 , 从而降低它的探索空间 , 以便更高效的投入战斗 。

团队|最会玩游戏的,是 AI
文章图片

▲ 如果没有妥当的引导 , AI 在学会高效战斗前会浪费大量的时间摸索技能释放.
那么 , 要如何让 AI 知道什么时候该做什么事情呢?AI LAB 的项目负责人介绍 , 很重要的一点是 reward 设计 。 简单来说 , 就是对各种目标设定一个奖励分 , 举个例子 , 如果 AI 用技能打到了对手 , 就给正分数 , 如果 AI 空放了技能 , 就给负分数 , AI 的最终目标就是顺利赢下这场对决 , 分数越高越好 。
好的 reward 设计可以快速引导 AI 学习 , 但设计和验证 reward 都有很高的成本 , 一方面 , AI 可能找到捷径 , 用特殊的方式拿到高分 , 另一方面 , 奖励的设置 , 在一定程度上也会限制 AI 的发挥 。
根据《天涯明月刀》的游戏特点 , AI LAB 与天刀联合团队针对角色生命值状况设置了「血量零和」reward , 来强调己方生命值损耗比对方更少;而影响战斗的「压制」和「浮空时间」reward , 则能引导 AI 学习如何通过技能组合长时间压制对手和浮空连招 , 来提升战斗效率——不仅要赢 , 还要赢得高效漂亮 。

团队|最会玩游戏的,是 AI
文章图片

▲ 经过引导与强化学习 , AI 对浮空连击技巧的应用已经炉火纯青.
对于玩家来说 , 「战无不胜」是他的终极目标 , 但对于 AI 来说 , 这只是它的第一阶段:绝智 AI 还有一个更重要的任务:满足不同玩家的游戏需求——失败是另一种成功 。
上面提到 , 除了复杂的技能树与多种职业带来的庞大探索空间 , 《天涯明月刀》还有一个非常重要的差异点:那就是玩家差异 。
在天刀的游戏世界里 , 装备、经脉、心法等成长要素都会影响玩家的功力——功力是一个对玩家战斗力水平的评价数值 , 由游戏中各维度属性影响——在不断成长的过程中 , 每个玩家的进度都是不一样的 。 即使功力相似 , 玩家的操作水平也有高低之分 。
正是角色本身的功力差异以及每个玩家的操作水平 , 才构成了玩家的段位 。 那么 , 绝智 AI 是如何覆盖所有玩家的呢?其实这是两个问题:「如何覆盖所有功力」和「如何覆盖所有操作水平」 。

团队|最会玩游戏的,是 AI
文章图片

▲ 与多数竞技游戏类似 , 在天刀中玩家也能通过胜利不断提升段位 , 证明自己的同时获得奖励.

推荐阅读