会玩德州扑克的AI，为什么比AlphaGo更厉害？

2017-08-11金姬

新民周刊 2017年30期

金姬

没有追随深度学习潮流的“冷扑大师”，或许在现实生活中拥有更广阔的用武之地：金融交易、网络安全、商业拍卖、政治谈判……因为这些情景都是充满了各种博弈的“非完美信息”游戏。

提到人机大战，普罗大众比较熟悉的是战胜人类围棋的AI“阿尔法狗”（AlphaGo）。但在人工智能（AI）界，业内人士更关注的是另一项人机大战——德州扑克。因为在这个领域，AI系统没有海量的棋谱可以深度学习，比赛双方掌握的信息也不对等，这就需要AI系统利用博弈论等其他理论来进行决策。

2017年1月，美国宾州匹兹堡的大河赌场（Rivers Casino）举行了一场德州扑克的“人机大战”——连续20个比赛日中，一个名为“冷扑大师”（Libratus）的AI在共计12万手的一对一无限注德扑比赛中击败了四名顶尖人类高手，共计领先人类团队176万美元筹码。令人咋舌的是，这是“冷扑大师”第一次和人类交手。

3个月后，“冷扑大师”又在中国海南战胜了6位顶尖华人扑克选手。此次比赛发起人、人工智能工程院院长李开复赛后如此评价道：“如果AlphaGo是超级IQ天才，那么‘冷扑大师就是超级EQ天才。”

7月下旬，“冷扑大师”的开发者、美国卡内基梅隆大学（CMU）计算机教授托马斯·桑德霍姆（Tuomas Sandholm）再次来到中国，在“2017钛媒体-杉数科技AI大师圆桌会”现场与他的学生、清华大学计算经济学研究室主任、博士生导师唐平中，上海财经大学教授、国际奥数金牌、杉数科技科学家何斯迈，上海财经大学交叉科学研究院院长、杉数科技首席科学家葛冬冬讨论了商业实际场景中真正需要的AI，给大家分享了“AI赌神”的获胜秘诀。他表示：没有追随深度学习潮流的“冷扑大师”，或许在现实生活中拥有更广阔的用武之地：金融交易、网络安全、商业拍卖、政治谈判……因为这些情景都是充满了各种博弈的“非完美信息游戏”（imperfect-info games）。

为什么要让AI玩德扑？

“德扑AI之父”桑德霍姆用带有芬兰口音的英语说，之前著名的人机大战，无论是IBM的国际象棋AI“深蓝”、还是谷歌的围棋AI“阿尔法狗”，比赛双方获得的信息都是一样的，这就是“完美信息游戏”。但现实生活中这种信息完全对等的情况很少发生，而更多是“非完美信息游戏”，德州扑克就是这样一例。也就是说，即便在一对一的情况下，比赛双方获得的信息是不一样的、或者说只是部分的——双方都不知道五张公共牌会开出怎样的结果，也不知道对手猜测自己握有怎样的手牌。这样的游戏就不存在单一的最优玩法。

对于AI团队而言，研究“非完美信息游戏”不但更富挑战性，也更有实际运用价值。而“冷扑大师”打开了AI解决随机事件和隐藏信息的大门。

根据《量子位》的报道，“德扑AI”的最早研发可以追溯到2014年8月，当时刚刚完成硕士学业的诺阿姆·布朗（Noam Brown）继续留在CMU攻读计算机科学的博士学位。当年，他就和导师桑德霍姆教授一起开发出德扑AI：Tartanian7以及后续版本Baby Tartanian8，并且连续赢得电脑扑克大赛（电脑VS电脑）的冠军。

师生俩乘胜追击，开始研究德扑人机大战。两人创造了Claudico，当时的桑德霍姆以为Claudico有五成胜算。谁知，在2015年4月美国匹兹堡的大河赌场，Claudico在两周时间内和四位人类顶级玩家交锋8万手，累计输掉73.2万美元的筹码。之所以选择这个赌场，因为卡内基梅隆大学也在匹兹堡。

2017年1月11日，全新的“冷扑大师”（Libratus）卷土重来。还是四位人类对手，不过时长变为20天，累积交锋12万手。这次德扑AI没给人类玩家机会，一路以碾压的态势完胜。

“冷扑大师”的获胜秘籍是什么？

以往AI处理“不完美信息游戏”采用一种缩略的方法，例如将对手下注249美元近似为200美元进行简化处理，采用这一模式的Claudico在人类面前不堪一击。而“冷扑大师”就不同了，它会对每一手牌进行单独的处理，根据不同的牌面制订出不同的战略。对它而言，249美元就是249美元，它不會像以往的AI那样尝试聚类，而是马上实时计算，得出胜算最大的策略。

这种算法最大的特点，是开发者可以获得一定程度的“确定性”。而“确定性”正是时下大热的深度学习最缺乏的。有评论指出，深度学习有两大局限性：一方面，深度学习的本质是机器通过分析海量数据习得一些模式，但并不是所有领域都能采集到海量数据。以自动驾驶为例，显然通过积累海量事故经验来习得避免事故发生是不现实的。另一方面，深度学习是一个知其然而不知其所以然的“黑匣子”，这在许多重大安全事件上并不能令人放心。自动驾驶的事故问责问题就是一例。

值得注意的是，“冷扑大师”在今年1月人机大战之前没有研究过人类如何打德州扑克，也没有和人类职业玩家有过交手。在投入实战之前，它和自己对战了几百万手牌，其中有不少是带有特定目的的残局，真正机器和机器之间的交手，大约是几十万手。

更有意思的是，“诈唬”（bluff）这种看似与心理有关的人类技能，“冷扑大师”通过算法也“自学成才”。诈唬是德扑的一种经典策略——当你手中的牌面不够大，可以通过虚张声势加注吓退对手，逼对手弃牌。而计算机会根据选手过去的表现来判断对手牌面大的概率有多少，从而做出当下的最佳策略。

在桑德霍姆看来，“冷扑大师”的这套AI系统有十分广阔应用空间：从战略定价到金融领域、从谈判到网络安全、从政治竞选到拍卖、从医疗资源规划到军事领域……现在唯一的问题是，运行“冷扑大师”，需要匹兹堡超算中心的Bridges超级计算机。不过桑德姆斯研究团队乐观表示，算法还可以被优化，再加上计算硬件的提升，可能5年之内就能一部手机搞定一切了。

猜你喜欢

会玩德州扑克的AI，为什么比AlphaGo更厉害？

猜你喜欢

杂志排行

新民周刊的其它文章