AI 算法的进化:机器会引发战争吗?( 七 )


在与李世石对战的前几天 , 欧洲冠军樊麾帮AlphaGo进行赛前集训时发现了它的一个弱点 , 似乎就是这种情况 。这或许说明人类的下棋数据将算法导向了局部最优 , 而实际更优或者最优的下法与人类的下法存在一些本质的不同 , 即人类在事实上“误导”了AlphaGo 。算法很快就学会了如何重新评估自己的落子 , 以最大限度地提高再次获胜的概率 。是新对手把算法“逼下山” , 促使它找到了再攀高峰的新方法 。
AI 算法的进化:机器会引发战争吗?
文章图片

DeepMind团队目前又开发出了新一代的AlphaGo—AlphaZero , 它打败了曾书写历史的各版本AlphaGo前辈 。这个名字的由来是:由于是通用棋类人工智能 , 因此去掉了代表围棋的英文“Go”;没有使用人类的知识 , 从零开始训练 , 所以用“Zero”;两者相结合就得到了“AlphaZero” 。它已不再学习人类的棋谱、走法 , 而是完全依靠自我对弈来迅速地提高棋艺 , 从而走出人类对围棋认知的局限与定式 。就像雅达利的游戏算法一样 , 给定棋盘上361个(19×19)交叉点以及它们的得分规则 , 然后在自我对弈中试验棋步 。沿用最初在构建AlphaGo时所使用的强化学习策略 , 由“白板”状态开始“自学成才”是AlphaZero的独门秘籍 。DeepMind团队甚至也为新算法呈现出来的强大能力而感到震惊:它已不再受人类的思维和游戏方式的限制了 。
AI 算法的进化:机器会引发战争吗?
文章图片

AlphaZero自我训练的时间仅为3天 , 完成的自我对弈棋局数量就达到了490万盘 。人类花3000年才能实现的 , 它却只用了3天 。在对阵曾赢下李世石那一版的AlphaGo时 , AlphaZero取得了100 : 0的压倒性战绩 。经过40天的训练之后 , 它就所向披靡了 。它甚至能够在8小时内学会如何下国际象棋和日本将棋 , 水平甚至超过了市面上两个最好的国际象棋程序 。
AlphaGo项目的负责人大卫·西尔弗博士解释了这种“白板”学习在多个领域的影响:
如果能够实现“白板”学习 , 就相当于拥有一个可以从围棋移植到其他任何领域的桥梁 。这种算法是通用的 , 它会将你从所在领域的细节中解放出来 , 它普遍适合于任何领域 。AlphaGo并不是要打败人类 , 而是要发现做科学研究意味着什么 , 让程序能通过自学最终学习到哪些知识 。
【AI|算法的进化:机器会引发战争吗?】DeepMind的口号是:首先解决智力问题 , 然后用它来解决其他问题 。他们确信未来已在路上 。但这项技术能走多远?它在创造力方面能与最优秀的数学家相媲美吗?能绘画或是创作音乐吗?能破解人类大脑的秘密吗?

推荐阅读