从雀圣到股神，微软只差“最后一英里”( 六 )_：从雀圣到股神

最后，麻将有着复杂的奖励机制。日本麻将的规则是「无役不能和牌」，多样的特殊牌面构成了复杂的「役种」和番数计算规则。一轮游戏共包含 8 局，单局得分与役种和番数相关，最后根据 8 局的得分总和进行排名，来形成最终影响段位的点数奖惩。因此有时麻将高手会策略性输牌，例如，在第 8 轮时如果 A 玩家已经大比分领先第二名，他可能会故意放炮给排名第四的玩家，来防止总分被排名第二的玩家反超，保证自己在最终结算时获得最大的点数奖励。这为构建高超的麻将 AI 策略带来了额外的挑战，AI 需要审时度势，把握进攻与防守的时机。

「面对麻将游戏的巨大挑战，AI 仅靠强大的计算力无法从根本上解决问题，而需要更强的直觉、预测、推理和模糊决策能力。」刘铁岩说道，从棋牌类角度来说，麻将在可观测以及不可观测两个方面都有着很大的难度，亚研院作为一家研究机构，攻克这一问题也便成了顺理成章的选择。

AI 的「大局意识」

针对麻将在游戏 AI 领域的这几个难点，亚研院针对性地在强化学习的基础上尝试了一些新的算法，从而保证 Suphx 在对战中能够对游戏有更全面的掌握，从而在多局游戏中做出策略性的决策。