从雀圣到股神,微软只差“最后一英里”( 六 )

最后,麻将有着复杂的奖励机制。日本麻将的规则是「无役不能和牌」,多样的特殊牌面构成了复杂的「役种」和番数计算规则。一轮游戏共包含 8 局,单局得分与役种和番数相关,最后根据 8 局的得分总和进行排名,来形成最终影响段位的点数奖惩。因此有时麻将高手会策略性输牌,例如,在第 8 轮时如果 A 玩家已经大比分领先第二名,他可能会故意放炮给排名第四的玩家,来防止总分被排名第二的玩家反超,保证自己在最终结算时获得最大的点数奖励。这为构建高超的麻将 AI 策略带来了额外的挑战,AI 需要审时度势,把握进攻与防守的时机。

「面对麻将游戏的巨大挑战,AI 仅靠强大的计算力无法从根本上解决问题,而需要更强的直觉、预测、推理和模糊决策能力。」刘铁岩说道,从棋牌类角度来说,麻将在可观测以及不可观测两个方面都有着很大的难度,亚研院作为一家研究机构,攻克这一问题也便成了顺理成章的选择。

AI 的「大局意识」

针对麻将在游戏 AI 领域的这几个难点,亚研院针对性地在强化学习的基础上尝试了一些新的算法,从而保证 Suphx 在对战中能够对游戏有更全面的掌握,从而在多局游戏中做出策略性的决策。

推荐阅读