人类玩德州扑克也扑街了?Facebook开发玩德州扑克的AI,大比分击败顶尖人类选手!

简介: 最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。

微信图片_20220109135122.png


近年来人工智能发展迅猛,很多重复性的工作都被AI自动化了,人类工作要被机器替代的说法也「甚嚣尘上」,而现在,打打扑克也不行了?

 

最近,Facebook 的研究人员开发了一个名为「Recursive Belief-based Learning」(ReBeL)的通用人工智能框架,德州扑克玩的相当溜。

       微信图片_20220109135125.png        


根据Facebook的说法,这个框架在单挑无限制的德州扑克游戏中明显优于人类表现,而且使用的领域知识比之前任何扑克人工智能都要少

 

他们断言 ReBeL 是开发通用多代理交互技术的一种方法,该算法可以部署在大规模、多代理环境中,预期的应用范围也很广,从拍卖、谈判、网络安全到自动驾驶都能用上。


AlphaZero在不完全信息游戏中表现「差点意思」


目前,将强化学习与搜索相结合,在人工智能模型训练和测试方面,已经取得了一些进展。 


强化学习代理是通过最大化回报来学习的,而搜索是从开始到目标状态的导航过程。例如,DeepMind 的 AlphaZero 使用强化学习和搜索技术在国际象棋、围棋等游戏中实现了SOTA效果。 


    微信图片_20220109135127.png      


但是之前的组合方法在应用于不完全信息的游戏如扑克(甚至是石头、剪子、布)时就不那么奏效了,因为它做出了一些在这种情况下不成立的假设 


任何给定动作的价值取决于它被选择的概率,更一般地说,取决于整个游戏策略,而围棋游戏的搜索空间是有限的,并且每一个动作的价值可以在被选之前评估出来。 


基于信念的递归学习击败顶尖人类玩家


ReBeL将「游戏状态」的概念进行了扩展,它包括了代理基于常识和其他代理的政策对他们可能处于何种状态的置信度 


ReBeL通过自我强化学习训练了两个网络:一个价值网络和一个政策网络。


它在自我对弈中使用两种模型进行搜索。结果是一种简单,灵活的算法,研究人员声称该算法能够在大规模的两人不完全信息游戏中击败顶尖的人类玩家。 从更高层次上来讲,ReBeL 运行于公共置信状态而不是世界状态(即游戏状态)。


公共置信状态(PBSs)将「状态价值」的概念推广到像扑克这样的不完全信息游戏中,PBS是在可能的动作和状态的有限序列(也称为历史记录)上的常见知识概率分布,可提供发生不同结果的可能性。


在完全信息游戏中,PBS可以提取到历史记录,而在两人零和游戏中,PBS可以有效地提取到世界状态。扑克中的PBS是玩家可以做出的一系列决定,以及特定手牌,底池和筹码时他们的结果。      


 

网络异常,图片无法展示
|


ReBeL在每个游戏开始时都会生成一个与原始游戏相同的「子游戏」,只是它起源于最初的PBS。该算法通过运行「均衡查找」算法的迭代并使用训练后的价值网络在每次迭代中取近似值来击败对手。  


     微信图片_20220109135130.png       


与世界上最好的单挑扑克玩家之一的Dong Kim相比,ReBeL在7500手牌中每手玩的时间超过了2秒,决策所需的时间从不超过5秒


Facebook以前的扑克游戏系统Libratus的最高得分为147,而ReBeL对人类的平均每场比赛盲注(强迫下注)得分为165(标准差为69)。  


   微信图片_20220109135132.png 


担心被拿去赌钱,Facebook决定不公开源码


在实验中,研究人员对ReBeL进行了单挑无限制,Liar’s Dice和残局游戏的基准测试,这是无限制德州扑克的一种变体,两个玩家可以在四轮投注中的前两轮进行检查或叫牌。 


研究小组使用了多达128台带有8个显卡的电脑来生成模拟游戏数据,并在训练期间随机分配赌注和堆栈大小(从5,000到25,000个芯片)。ReBeL 在整场比赛中接受训练,并且有20,000美元可以下注。 


出于对作弊的担心,Facebook 团队决定不发布用于扑克的 ReBeL 代码库。相反,他们将 Liar’s Dice 的实现开放了。Facebook的研究人员相信ReBeL将使得德州扑克在强化学习研究领域更受欢迎。 


「虽然人工智能算法已经存在,可以在扑克游戏中取得超人的表现,但这些算法通常假设参与者拥有一定数量的筹码或使用一定的赌注大小」。 而在实战中,你的筹码数量是不定的,所以需要重新训练算法,这种情况下想进行实时对战就有困难了。但是,ReBeL 可以在几秒钟内计算任意任意赌注大小的策略


参考链接:

https://arxiv.org/pdf/2007.13544.pdfhttps://venturebeat.com/2020/07/28/facebook-develops-ai-algorithm-that-learns-to-play-poker-on-the-fly/

相关文章
|
24天前
|
人工智能 小程序
一步步开发AI运动小程序】二、引入插件
随着人工智能技术的发展,阿里体育等公司推出的“乐动力”、“天天跳绳”等AI运动APP广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。内容包括新建uni-app项目、配置插件、部署模型、安装依赖包、全局初始化和调用插件对象。
|
5天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
10天前
|
人工智能 小程序
【一步步开发AI运动小程序】五、帧图像人体识别
随着AI技术的发展,阿里体育等公司推出的AI运动APP,如“乐动力”和“天天跳绳”,使云上运动会、线上健身等概念广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。文章分为四部分:初始化人体识别功能、调用人体识别功能、人体识别结果处理以及识别结果旋转矫正。下篇将继续介绍人体骨骼图绘制。
|
11天前
|
人工智能 小程序 vr&ar
AI运动小程序开发常见问题集锦二
截至当前,我们的AI运动识别小程序插件已迭代至第23个版本,广泛应用于健身、体育、体测、AR互动等场景。本文针对近期用户咨询,汇总了常见问题,帮助用户减少开发成本,提高效率。主要涵盖计时与计数模式的区别、综合排行榜生成方法、全屏模式适配及无开发能力用户的解决方案。
|
21天前
|
人工智能 编解码 小程序
【一步步开发AI运动小程序】四、小程序如何抽帧
随着AI技术的发展,阿里体育等公司推出的“乐动力”、“天天跳绳”等APP使云上运动会、线上健身等概念备受关注。本文将引导您从零开始开发一个AI运动小程序,利用“云智AI运动识别小程序插件”。文中详细介绍了微信小程序抽帧的相关API、设置及注意事项,帮助开发者更好地实现AI运动功能。下篇将介绍人体识别技术,敬请期待。
|
24天前
|
机器学习/深度学习 人工智能 监控
利用AI进行代码审查:提升代码质量和开发效率
【10月更文挑战第12天】本文探讨了AI在代码审查中的应用及其优势,介绍了AI辅助代码审查工具如何通过自动化和持续学习提升代码质量和开发效率。文章还提供了实施AI辅助代码审查的具体步骤和实战技巧,帮助团队更好地利用这些工具。
|
24天前
|
人工智能
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
|
24天前
|
存储 人工智能 NoSQL
使用 MongoDB 构建 AI:Gradient Accelerator Block 如何在几秒钟内让您从零开发 AI
借助 MongoDB,开发者可以存储任何结构的数据,然后使用单一查询 API 和驱动程序将这些数据用于 OLTP、文本搜索和向量搜索处理。
|
25天前
|
人工智能 前端开发 测试技术
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
本文介绍了 GPT-4 如何成为前端开发者的“神队友”,让开发变得更加高效愉快。无论是需求到代码的自动生成、快速调试和性能优化,还是自动化测试和技术选型,GPT-4 都能提供极大的帮助。通过智能生成代码、捕捉 BUG、优化性能、自动化测试生成以及技术支持,GPT-4 成为开发者不可或缺的工具,帮助他们从繁重的手动任务中解脱出来,专注于创新和创意。GPT-4 正在彻底改变开发流程,让开发者从“辛苦码农”转变为“效率王者”。
29 0
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
|
22天前
|
机器学习/深度学习 人工智能 小程序
【一步步开发AI运动小程序】三、运动识别处理流程
随着人工智能技术的发展,阿里体育等公司推出的“乐动力”、“天天跳绳”等AI运动APP备受关注。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。文章介绍了视频帧、帧率FPS、抽帧和人体识别等基本概念,并详细说明了处理流程,包括抽帧、人体识别检测、骨骼图绘制和运动分析等步骤。下篇将介绍如何在小程序中实现抽帧。