虽然完败于德扑人工智能,人类牌手却靠“认怂”偷了几局

“我跟它(AI)打就一直认怂。”北京千山剧影视传媒有限公司董事长、中国“龙之队”队员童舟这样向澎湃新闻(www.thepaper.cn)介绍他曾连胜德扑AI四场的“心得”。

虽然5月份在乌镇,围棋“当今第一人”柯洁将与AlphaGo上演围棋界人机对战的终极一战,但创新工场CEO李开复在4月5日断言柯洁毫无胜算,比起来,4月6日到10日举行的德州扑克人机大战表演赛尚有10%的可能成为人类历史上赢得人机对战的绝唱。

这场德扑表演赛由创新工场与海南生态软件园联合主办,比赛双方为由杜悦、许朝军、张淮、童舟、朱亚希、王天健共六位人类牌手组成的中国“龙之队”和李开复母校美国卡内基梅隆大学(CMU)开发的德扑人工智能系统Libratus,比赛奖金为200万元人民币。

4月10日中午,在海南澄迈的比赛场地,室外阳光明媚,室内人类收获了相当惨淡的赛果。在33000手牌后,6名牌手共计输给人工智能Libratus792327分,可谓完败。

但在个人战绩上,人类牌手还是创造了一些亮点的:点点网、啪啪创始人许朝军曾收获前三场连胜的“开门红”,而童舟自第三场结束,即第2比赛日中午向队友打赌必胜AI后,斩获了从第四场到第七场的四连胜。在个人最终战绩上,童舟也是输的最少的。

那么,是什么给了童舟信心,让他在三场之后撂下狠话的呢?童舟在接受澎湃新闻(www.thepaper.cn)专访时透露,他总结了第1比赛日后就找到了AI的几个漏洞,并不断示弱,引诱AI前来“偷鸡”,由此反败为胜。不过,AI每天都会修复前一天的漏洞,人类牌手只能重新开始寻找新的漏洞。

“跟AI完全不是在打德扑”

简单来说,德扑是玩家用自己手中的2张底牌和牌桌上的5张公共牌进行组合,选出5张凑成最大的牌型(各种牌型有固定的大小顺序,如5张同花顺比4张同样数字加一张单牌要大)。而牌桌上的5张公共牌分3个环节翻开,分别为翻牌(flop)、转牌(turn)、河牌(river)。在翻牌的不同阶段玩家都有加注的机会。

而最基本的下注策略有两种,一是诈唬下注(bluffing),又称为“偷鸡”,即以吓退对方盖牌为目的的加注;二是价值下注(value bet),即在手中的牌有把握比对方大的时候,以引诱对方跟注而赢得更多筹码为目的的下注。

童舟告诉澎湃新闻(www.thepaper.cn),他在第一天时完全按照和人类对战的方式和AI打,结果发现无论是诈唬还是价值下注都讨不到便宜,输得很惨。后来,他发现AI有一些漏洞,“也不完全是漏洞,更准确地说是一些套路。”

这些套路是指AI打牌会出现一些重复的模式,使人类有迹可循。童舟发现“AI河牌加注1/5底池的时候基本上是在偷鸡”,这样人类牌手就可以抓住这些机会。

不过,AI每天晚上都似乎会修复前一日比赛中出现的“漏洞”,改变风格。幸运的是,童舟在第二天也同样会抓到AI新的漏洞。

虽然这样能够有赢过AI的机会,但童舟也无奈地表示,这样完全不像是在玩德扑了,他所做的就是“由它在主导,跟着它的路子,慢慢的它的漏洞就会暴露出来,然后就利用这个误导它。”另一件令他无奈的事是,AI虽然会被人抓住“偷鸡”的机会,但它是个防守非常稳健的选手,“想让它输很难,你赢它赢不多,如果你想赢它很多就会输更多。”因此,童舟一直把底池控制得很小,不敢和AI“对飙”。

不过,尽管有这些可循的痕迹,“龙之队”队员依然称赞AI是个非常优秀的德扑选手,甚至超过了人类所能理解的打法。一方面,AI读牌方面的计算很强,“只要它觉得比你大一点点,它就会打价值(下注),只有国外一些顶级的牌手会这么做,很多中国人就过牌了。 ”童舟说道。

另一方面,AI下注非常大胆。有时候AI起手底牌很差,人类选手按照理性计算肯定会弃牌,但AI多次拿着很差的底牌(比如3和6)大胆冒进,结果在转牌或河牌阶段上演大逆转(河牌真的开出了一张6),令人类选手匪夷所思,拍案叫绝,仿佛AI真的能猜到未翻开的牌一样。

AI开发者:可能不会做多人德扑,一对一就是最好的

那么,德扑AI神乎其技的牌技究竟是基于怎样的算法实现的呢?它与实现围棋的AI路径有何不同?这次与人类对战的人工智能Libratus的开发者之一,美国卡内基梅隆大学(CMU)计算机系教授托马斯•桑德霍姆(Tuomas Sandholm)的博士生诺姆•布朗(Noam Brown)在接受澎湃新闻专访时说道,Libratus并没有使用时髦的深度学习,但在残局计算上下足了功夫。

事实上,世界范围内有好几个团队都扑在开发德扑AI,而加拿大阿尔伯塔大学的一个团队更是在今年1月初抢先发表论文,宣布他们的Deepstack成为首个击败人类牌手的德扑AI。诺姆承认,这些团队实现德扑AI的核心路径是相同的,都是一种名为“虚拟遗憾最小化”(counterfactual regret minimization)的算法。

但诺姆对他们的Libratus非常自信,认为它能在机器对战中完胜其他的德扑AI。这是因为,他们不仅充分在算法中运用了博弈论的知识,更将AI的残局计算能力大大强化了。“和围棋不一样,围棋是越下越简单的,残局阶段计算量更小。但德扑开到转牌和河牌阶段,局面更为复杂,存在的可能性更多。”诺姆说道。

值得一提的是,开发团队并没有使用深度学习训练机器。阿尔法狗在学习数千万张人类棋谱后才开始进入“左右互搏”的自我对弈阶段,在AI上称为强化学习(reinforcement learning)。而Libratus的开发者只是向它描述了德扑的游戏规则,就开始由它通过强化学习的方法自己摸索德扑应该怎么打。因此,Libratus的打法完全脱离人类经验,天马行空,在人类牌手看来十分激进。

Libratus接连在单挑中战胜中美德扑高手,外界都开始关心AI离掌握多人德扑还有多远。然而,诺姆却透露,他们可能并不会去做多人德扑。因为,在他们看来,多人德扑超过了纯粹竞技的范围,因此很难根据战绩来评估AI的水平。诺姆打了个比方,奥运会并没有超过两支队伍的比赛,“因为你无法控制别的对手相互之间的互动,就算你自己做出的选择是完美理性的,结果可能也体现不出来。”

桑德霍姆教授则笑着说,“为什么要玩多人德扑?一对一永远是最好的游戏!”。

尽管德扑AI代表的“高情商”、“会欺骗”、“会博弈”的人工智能打开了通往更多现实场景应用的大门,不过,在近期,桑德霍姆和诺姆团队还是会专注完善一对一德扑。“这毕竟是我们的招牌嘛。”诺姆说道。

“龙之队”稍有不服

除了博弈论和残局计算之外,此次的冠军Libratus还有一个秘诀:它会在每一个比赛日结束后回顾这一天的对战经历,找出曾被人类利用的“套路”,并自我清除。也正因为如此,“龙之队”的一位助理向澎湃新闻(www.thepaper.cn)透露,Libratus团队并未提供每天的比赛数据,这让人类团队每晚在复盘上花了更多精力,也更难通过数据来分析AI的打法,形成针对性策略。

上述消息人士说道,“龙之队”首次亮相就遭遇了AI。鉴于Libratus曾在1月份连续20个比赛日中击败了四名顶尖美国高手,因此他们原本就不抱有胜算,只是想尽力一搏,如果能有一名人类牌手侥幸领先,当然再好不过。然而,AI团队不提供比赛数据的做法令他们稍有不服。甚至,在第1个比赛日,桑德霍姆教授没有提供最后的胜负情况,因为一天的比赛运气成分很大,他并不想让“人类牌手打败AI”成为新闻噱头。该消息人士说道,“当然,即使提供给我们数据,大概也是输,但这样会输得更心服口服。我能感到他们非常希望AI赢,但双方在更平等的起点上,AI的胜利也会更令人信服。当然,整体来说,AI牌打得非常好,我们经常会对它的一些打法感到很佩服,确实很高明。”

德扑人机大战中国队员介绍:童舟 影视德扑双栖

德扑比赛北京 虽然完败于德扑人工智能,人类牌手却靠“认怂”偷了几局

童舟

4月6日至10日将在海南进行的“冷扑大师 vs 中国龙之队”的德州扑克人机大战表演赛,中国龙之队的出场名单已经确认,以下是队员童舟的个人介绍:

童舟

2014年至今任北京千山剧影视传媒有限公司董事长兼总经理,代表作《温暖的日子》、《东道》、《医本正经》、《我就是有点头疼》等

2010年至2013年任北京星辉煌影视投资有限公司制片及策划,代表作《风云传奇》、《魔法乐天树》等

2007年至2010年就读于University of Essex

主要赛事经历:

2015年北京杯赛中赛主赛弟9名

2015年WPT China豪客赛第7名

2016年WPT China豪客赛第4名

2016年ACOP 8万豪客赛第11名

2017年第26届红龙杯8万豪客赛第17名

相关问答

中国德州扑克职业选手的生存状况是怎样的?

谢谢邀请已经两年不碰扑克了我当时是打网络扑克室叫fulltiltpoker后来转到pokerstars我当时的圈子里大多也是打网络扑克的不过上海北京珠海有一些联谊性...

标签列表