微软:史上最强AI麻将新鲜出炉 人工智能发展需扣好“安全带”( 二 )

图1/3

图说:麻将游戏的挑战以及Suphx 的核心技术。图自微软亚洲研究院官网。

据介绍,由于麻将有海量隐藏信息,玩家无法知道他人的手牌和没有翻出来的底牌,属于非完美信息游戏,对此,Suphx尝试了先知教练技术,其基本思想是在自我博弈的训练阶段利用不可见的一些隐藏信息来引导AI 模型的训练方向,使其学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI 模型更加深入地理解可见信息,从中找到有效的决策依据。Suphx还通过全盘预测技术,理解每盘比赛和8轮过后的终盘结果,来指导Suphx自我博弈的过程。另外,由于麻将游戏的高复杂性,Suphx采取自适应的决策方式,让Suphx根据牌局状态来动态调整策略。

据微软亚洲研究院介绍,Suphx于今年3月登陆天凤平台,在AI 能够参与的公开竞技房“特上房”中,与人类选手展开了5000 余场精彩激烈的四人麻将对局。 6 月,Suphx 成为了首个成功达到天凤十段的AI 系统。

据了解,天凤平台是国际知名的专业麻将平台,通过计算稳定段位(Stable Rank)来衡量雀士的真实实力水平,雀士想取得高而稳定的稳定段位是非常不易的。目前,Suphx的稳定段位超过了8.7,比“特上房”中所有取得过天凤十段的顶级人类玩家的整体稳定段位,要领先约1.3个段位,同时也领先于东京大学在2015 年开发的“爆打”和Dwango 公司于2018 年开发的基于深度学习模型的“NAGA25”在天凤平台上的约6.5的稳定段位。

推荐阅读