人工智能终于开始掌握人类的一些独特能力,而且它比它的老师更好地发挥这些能力。
要在扑克中获胜,您需要利用一件事:狡猾。为了获胜,玩家必须分析对手如何打牌,然后诱骗他们交出筹码。当然,这种狡猾是人类的本能。现在,人工智能程序首次被证明能够使用类似的技能来欺骗人类职业扑克玩家。
最近,Facebook与卡内基梅隆大学合作开发的新型人工智能系统Pluribus击败了世界上最流行、最广泛的扑克游戏——德州扑克。人类顶级职业选手。 Pluribus 在“5 AI + 1 人类玩家”和“1 AI + 5 人类玩家”模式中都击败了职业玩家。这是人工智能机器人首次在超过两名玩家(或两支队伍)的大型基准游戏中击败顶尖职业选手。
此前,人工智能技术已经能够仅用一个对手就击败人类扑克大师。但在像Pluribus 这样的多人游戏环境中击败人类精英玩家是关键的里程碑。
Pluribus 通过基于Libratus 的多项创新以及卡内基梅隆大学研究实验室Tuomas Sandholm 开发的附加算法和代码实现了这一成果。 Libratus 是2017 年在2 人无限注德州扑克中击败人类职业选手的人工智能。特别是,Pluribus 使用了一种新的在线搜索算法,只需之前的几个步骤即可有效评估其下注选项,而无需进行搜索直到比赛结束。 Pluribus 还使用一种新的、更快的自玩算法来玩包含隐藏信息的游戏。
图丨Tuomas Sandholm(来源:卡内基梅隆大学)
更令人惊讶的是,这些进步可以使用很少的处理能力和内存(相当于不到150 美元的云计算资源)来训练Pluribus。这种效率与最近的其他人工智能里程碑项目形成鲜明对比,这些项目需要相当于数百万美元的计算资源进行培训。
扑克中的这些创新意义重大,因为两个人之间的零和互动(一名玩家获胜,一名玩家失败)在休闲游戏中很常见,但在现实生活中很少见。在现实世界中,针对有害内容采取行动、应对网络安全挑战以及管理在线拍卖或导航流量通常涉及多个参与者和多层隐藏信息。多人交互对过去的人工智能技术提出了严峻的理论和实践挑战。然而,现在的结果表明,人工智能算法可以在两人零和游戏之外实现非凡的性能。
图片| Seth Davies,职业扑克玩家(来源:Facebook)
它削弱了在线扑克公司的力量。研究人员通过与一组精英人类专业人士对战来评估Pluribus。职业选手包括2000年世界扑克系列赛主赛事冠军Chris“耶稣”弗格森、2012年世界扑克系列赛主赛冠军Greg Merson等。每位参赛选手此前都在牌桌上赢得了超过100万美元的奖金,其中一些赢得了超过100万美元的奖金。 1000万美元。
战斗形式有两种:五名职业玩家和一名人工智能,以及一名职业玩家和五名人工智能副本。在每种赛制中,牌桌上都有6 名玩家,每手牌起始筹码为10,000 个。小盲注为50 个筹码,大盲注为100 个筹码。
虽然扑克是一种技巧游戏,但也有很大的运气成分。对于顶级职业选手来说,仅仅因为运气不好而输掉一万手牌是很常见的。为了减少运气的作用,研究人员使用AIVAT方差缩减算法来评估结果。例如,如果机器人有一手非常强的牌,AIVAT 将从其奖金中减去基线值以抵消运气成分。
在5名职业选手+1名AI的实验中,玩了12天,玩了10000手游戏。每天从专业人士中选出五名志愿者参与。官方将根据球员的表现奖励5万美元,以激励他们发挥最佳水平。使用AIVAT 后,Pluribus 的胜率估计为每100 手5 个大盲注(5 bb/100),这是对精英人类的压倒性胜利(有利可图,p 值为0.021)。如果每个筹码价值1 美元,Pluribus 平均每手可赢得5 美元,每小时可赚取1,000 美元。这个成绩超出了职业选手在与职业和业余选手的混合比赛中获胜的预期。
5 AI + 1 职业玩家模式,由3 名志愿者玩,每个人类玩家5000 手,5 个Pluribus 副本。 Pluribus 不会根据对手的情况调整策略,因此不存在AI 之间故意串通的问题。总体而言,人类损失了2.3 bb/100(每100 手牌2.3 个大盲注)。
Pluribus 的算法是如此成功。帮助开发该算法的Facebook 研究员诺姆·布朗(Noam Brown) 表示:“这对于扑克社区来说可能非常危险。”他今年被评为《麻省理工科技评论》 35 岁以下技术创新者之一。
“你经常可以找到对手的弱点,但却找不到(其)弱点,”游戏中的扑克职业选手贾森·莱斯(Jason Les) 说道。 “人工智能太强大了,你找不到任何可以利用或利用的机会。”
研究人员担心Pluribus 可能会被用来充实在线德州扑克公司的金库,因此决定不发布其代码。目前,Facebook 没有计划实施为六人扑克开发的技术。
六人德州扑克的两大挑战几十年来一直是人工智能领域的一项艰巨而重要的挑战。
这是因为扑克游戏包含隐藏信息,你不知道对手的牌,获胜需要虚张声势等策略,这与国际象棋、围棋等游戏不同。这也是人工智能技术在其他游戏中取得突破,却无法突破扑克的原因。扑克游戏本质上对人工智能技术具有抵抗力。
具体来说,六人德州扑克始终面临两大挑战。
第一个挑战是德州扑克不仅仅是两个玩家之间的零和游戏。
以往人工智能突破的所有标杆游戏都仅限于只有两名玩家或两支队伍的零和游戏,例如跳棋、国际象棋、围棋、两人扑克、星际争霸2和Dota 2。在这些情况下,人工智能之所以成功,是因为它采用了一种称为纳什均衡的策略。在两个玩家或两个团队之间的零和博弈中,精确的纳什均衡是这样的:无论对手做什么,都不可能输(例如石头剪刀布的纳什均衡策略就是随机选择石头、布或剪刀的概率相同)。
尽管纳什均衡存在于任何游戏中,但在具有三个或更多对手玩家的游戏中,通常不可能有效地计算纳什均衡。此外,在多人游戏中,即使是精确的纳什均衡策略也可能会失败。一个例子是《Lemonade Stand》游戏,每个玩家同时在圆环上占据一席之地,并尝试与其他玩家保持尽可能远的距离。纳什均衡是指所有玩家在擂台上的距离相等,但有无数种方法可以实现这一点。如果每个玩家独立计算其中一个平衡点,那么所有玩家最终不太可能在环上等距。
图丨Lemonade Stand 游戏(来源:Facebook)
在两名以上玩家的零和博弈中,纳什均衡的缺陷让研究人员思考:这样的博弈中正确的目标应该是什么?以六人德州扑克为例,研究人员认为,目标不应该是特定的博弈论解决方案,而是通过长期的经验创造出能够击败人类对手甚至专业人士的人工智能。
在超过两名玩家的零和博弈中,研究人员用来构建Pluribus 的算法不能保证收敛到纳什均衡。尽管如此,Pluribus 的策略在六人扑克游戏中始终击败了人类精英扑克专家。
第二大挑战是信息隐藏在更复杂的环境中。
没有其他游戏像扑克一样体现隐藏信息的挑战,其中每个玩家都拥有其他玩家缺乏的信息。一个成功的扑克人工智能必须推理出这些隐藏的信息,并仔细平衡其策略,以保持不可预测性,同时仍能很好地选择下一步行动。例如,虚张声势有时可能有效,但一直虚张声势会预测对手的手牌,并可能导致损失很多钱。因此,有必要仔细权衡一个人诈唬的概率和他下注的概率。换句话说,在不完全信息博弈中,一个动作的价值取决于选择该动作的概率以及选择其他动作的概率。
相比之下,在完美信息博弈中,玩家不需要担心平衡每一步棋的概率。例如,在国际象棋中,无论被选中的概率如何,好的一步都是好的。
之前的扑克游戏机器人Libratus通过将基于反事实遗憾最小化(CFR)理论的完美自玩算法与精心构建的不完全信息博弈搜索过程相结合,处理两人德州扑克等游戏中的隐藏信息。然而,向德州扑克添加更多玩家会成倍增加游戏的复杂性。这些先前的技术不能扩展到六人德州扑克。现在,Pluribus 正在使用新技术来更好地应对这一挑战。
Pluribus 的培训费用不到150 美元。 Pluribus 策略的核心是通过自我对弈来计算,其中人工智能与自身的副本进行对战,而不使用任何人类游戏数据作为输入。 AI通过随机游戏从头开始,逐步完善。它记录了游戏采取的行动,以及这些行动的概率分布,然后在与早期版本的策略战斗中获得更好的输出。 Pluribus 中使用的self-play 版本是迭代蒙特卡罗CFR (MCCFR) 算法的修改版本。
在算法的每次迭代中,MCCFR 指定一个玩家作为“遍历者”,其当前策略在迭代期间更新。在迭代开始时,MCCFR 根据所有玩家当前的策略(最初是完全随机的)模拟一手扑克牌。模拟完成后,算法会检查遍历者做出的每个决定,并研究如果选择其他可用操作之一,它是否会做得更好或更差。接下来,人工智能根据可用行动评估每个假设决策的价值,依此类推。
在八天内,研究人员在64 核服务器上训练了Pluribus 的蓝图策略,需要不到512 GB 的内存并且不使用GPU。典型的云计算成本估算表明培训成本低于150 美元。这与人工智能项目最近取得的其他突破形成鲜明对比,这些项目通常需要花费数百万美元进行培训。
玩德州扑克时,Pluribus 在两个CPU 上运行。相比之下,AlphaGo 在2016 年与顶级围棋职业选手李世石的实时搜索中使用了1,920 个CPU 和280 个GPU。此外,Pluribus 使用的内存不到128 GB。 Pluribus 搜索每只手所需的时间在1 秒到33 秒之间,具体取决于情况。平均而言,Pluribus 的速度是典型人类职业选手的两倍:在六人德州扑克中与自身的副本对战时,每手牌需要20 秒。
图丨Pluribus 与职业玩家的游戏界面(来源:Facebook)
从扑克游戏到现实的不完全信息博弈的挑战此前,人工智能在完全信息的两人零和博弈中取得了一系列令人瞩目的成功。但现实世界中的大多数战略互动都涉及隐藏信息,并不是两方之间的零和博弈。 Pluribus的成功表明,在大规模、复杂的多人游戏中,精心构建的自对弈搜索算法尽管缺乏强大的性能和理论保证,仍然可以取得成功。
Pluribus 的另一个不同寻常之处在于,它的训练和运行成本远低于基准游戏中使用的其他最新人工智能系统。此前,一些领域专家担心,未来的人工智能研究将由拥有数百万美元计算资源的大型团队主导。 Pluribus 有力地证明,现在有理由相信,只需要少量资源的新方法就可以推进尖端人工智能研究。
图丨Tuomas Sandholm 和Noam Brown 开发的计算机程序在2017 年的一场比赛中击败了四名职业扑克玩家(来源:互联网)
尽管Pluribus 是为玩扑克而开发的,但它使用的技术并不是扑克专用的,并且不需要开发任何专门的领域知识。这项研究让我们对如何构建通用人工智能有了更好的基本了解。此外,Pluribus 在牌桌上击败多个对手的技术可能有助于AI 社区在各个领域制定有效的策略。