1997 年," 深蓝 " 在国际象棋上击败人类冠军卡斯帕罗夫的时候,人们说来一盘围棋啊,结果有了 AlphaGo 横扫人类顶尖高手李世石、柯洁。这时候,有人说来一盘 " 星际 " 啊 ……
结果,还不到三年,《星际争霸 2》又被 AI 拿下,而且人类输得几乎体无完肤!
北京时间 1 月 25 日凌晨,Google DeepMind 的最新 AI 人工智能程序 "AlphaStar" 以两个 5:0 连续血洗《星际争霸 2》职业选手 TLO、MaNa,只是在随后的一场表现赛中输给了 MaNa。
其中,TLO 是 Liquid 战队的虫族选手,目前世界排名第 68,MaNa 则是 2018 年 WSC 大赛的奥斯汀站亚军,神族选手,世界排名第 19。
这次是 AlphaStar 首次公开亮相,比赛用的游戏版本是 4.6.2,只进行神族内战,固定在 Catalyst LE 地图。
尤其令人称奇的是,AlphaStar 与两位人类对手的比赛相隔只有两周,就迅速自学成才,对战 TLO 时虽然完胜但表现还相当菜鸟,而对战 MaNa 的时候已经有了几乎的完美,非人类的操作让人猝不及防。
DeepMind 科学家 Oriol Vinyals、David Silver 介绍说,AlphaStar 的训练首先是模仿学习,训练大量的比赛回放资料,让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解游戏基本知识。
然后使用 "Alpha League" 循环比赛方法,先对比从人类数据中训练出来的神经网络,然后逐次迭代,产生新的 Agent 和分支,使其发展壮大。
接下来,这些 Agent 通过强化学习过程与 Alpha League 中的其他竞争对手进行比赛,尽可能有效地击败所有这些不同的策略,并调整个人学习目标,鼓励竞争对手朝特定方式演进,比如说获得特定奖励。
最后在 Alpha League 中选择最不容易被利用的 Agent,称之为 "The nash of League",去挑战人类。
至于为何选择《星际争霸 2》,主要是因为这款游戏具备策略性、竞争性的特性,需要即时做出大量决策,是非常有趣和复杂的游戏,在全球都很火爆,每年都有大量的比赛,有着海量的玩家基础。