从雀圣到股神,微软只差“最后一英里”( 七 )

从雀圣到股神,微软只差“最后一英里”

麻将游戏的挑战以及 Suphx 的核心技术 | 亚研院博客

首先,针对麻将巨大的状态空间,亚研院的研究团队在算法中引入了对探索过程多样性进行动态调控的机制,这使得 Suphx 能够比传统算法更充分地试探牌局状态的不同可能。另一方面,一旦某一轮的底牌给定,其状态子空间会大幅缩小;所以研究团队让 Suphx 在推理阶段根据本轮的牌局来动态调整策略,对缩小了的状态子空间进行更有针对性的探索,进而更好地根据本轮牌局的演进做出自适应决策。

其次,针对不完美信息游戏的挑战,Suphx 提出了名为「先知教练」的技术以提升强化学习的效果。其基本思想是利用 AI 不可见的信息,对模型进行引导,不断地训练促使其越来越熟悉不可见的信息,从机器的角度理解已有信息,从中找到决策依据。

另外,对于麻将复杂的牌面表达和计分机制,研究团队还利用全盘预测技术搭建起每轮比赛和 8 轮过后的终盘结果之间的桥梁。通过设计,这一预测器可以理解每轮比赛对终盘的不同贡献,从而将终盘的奖励信号分配回每一轮比赛之中,以便对自我对战的过程进行更加直接而有效的指导,并使得 Suphx 可以学会一些掌控全局的高级技巧。

推荐阅读