腾讯AI足球队夺冠Kaggle竞赛,绝悟AI强化学习框架通用性凸显

简介: 【新智元导读】今日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军。该冠军球队来自腾讯AI Lab研发的绝悟WeKick版本,凭借1785.8的总分在与全球顶级技术团队的竞技中以显著优势胜出。

今年11月底,腾讯AI Lab与王者荣耀联合研发的策略协作型AI绝悟升级为完全体,首次让AI精通了所有英雄的所有技能。


此次绝悟WeKick版本的整体设计正是基于绝悟完全体迁移得到,并针对足球任务进行了一些针对性的调整,展现了绝悟AI背后深度强化学习方法的通用能力。



0.jpg


Kaggle 竞赛 google-football 排行榜前十名,

来自 https://www.kaggle.com/c/google-football/leaderboard

 


Kaggle创立于2010年,是全球最大的数据科学社区和数据科学竞赛平台。此次足球AI比赛由Google Research与英超曼城俱乐部在Kaggle平台上联合举办。

 

一直以来,足球运动团队策略以其复杂性、多样性和高难度,成为长期困扰世界顶尖AI研究团队的难题,更加稀疏的游戏激励也使得其成为比MOBA游戏更难攻克的目标。今年Kaggle首次针对足球AI领域发布赛题,为深度强化学习多智能体技术竞技和基准评测提供了一个全新舞台。

 

比赛使用Google Research Football强化学习环境,基于开源足球游戏Gameplay Football开发,采取11vs11的赛制,参赛团队需要控制其中1个智能体与10个内置智能体组成球队,兼具挑战性和趣味性。一经推出,便吸引了来自世界顶级院校和研究机构的1100多支科研强队参与挑战。



1.jpg


“11 个强化学习智能体的合作与对抗”

 


Google Football(on Kaggle)以流行的足球游戏为模型,就像是一款由AI操作的FIFA游戏,智能体控制足球队中的一个或所有足球运动员,学习如何在他们之间传球,并设法克服对手的防守以进球。其竞赛规则与普通足球比赛类似,比如目标都是将球踢入对方球门以及越位、黄牌和红牌规则。

 

不同于常见足球视频游戏的统一调控式NPC球队,在本次Kaggle竞赛中,每个球员都各由一个单独的智能体控制,而参赛的AI模型则根据比赛情况控制其中一个智能体,与其他10个内置智能体配合。这要求每个球员不仅需要观察对手的行为,还需要留意己方队员的情况,背后需要非常复杂的团队协作和竞争策略作为支撑。


2.jpg

image.gif

WeKick(黄色球衣) vs SaltyFish(本次竞赛第二名)近期的一局比赛实录(射门)



举个例子,当对方球员控球时,己方智能体不仅要根据球场上双方球员的分布位置预测控球球员的下一步动作,还需要

与己方其他球员协同如何合规地夺取足球的控制权。且由于球场动态瞬息万变,因此高速的实时决策能力也是必需的。

 

此外,从零开始完全采用强化学习方法来训练完整的足球AI实际上也相当困难。与MOBA游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。


绝悟AI如何走上冠军之路

 


得益于深度强化学习在游戏领域突飞猛进的发展,从Atari游戏到围棋再到多种不同的视频游戏,AI智能体在不断的迭代演化中变得越来越强大,而足球运动团队策略的难关也得以被攻克。

 

绝悟WeKick版本首先采用了强化学习和自博弈(Self-Play)来从零开始训练模型,并部署了一种异步的分布式强化学习框架。虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源,使其能适应 11 智能体足球游戏训练环境。

 

由于MOBA游戏和足球游戏任务目标的差异,绝悟WeKick版本采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合,在特征与奖励设计上进行了扩展和创新。该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使得绝悟WeKick版本可以从其它球队学习。然后,再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,进一步提升策略的稳健性。


3.jpgimage.gif


GAIL 的优势(WeKick 的奖励设计综合了 Reward Shaping 和 GAIL 两种方案)

 

但这种通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛的时候单一风格的模型很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳的情况。因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。


因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。

4.jpg



这种League多风格强化学习训练方案的主要流程可简单总结为先专精后综合。

 

首先训练一个具备一定程度竞技能力的基础模型,比如运球过人、传球配合、射门得分;

接着基于基础模型训练出多个风格化模型,每个模型专注一种风格打法,在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力;


最后基于多个基础模型训练一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。

 

内部能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的基础上提高200分,比最强的风格化打法高80分。

 

5.jpg


最终,基于绝悟完全体的架构迁移,定制化的框架改进,加上关键性的生成对抗模拟学习(GAIL)方案和 League (若干策略池)多风格强化学习训练方案,使得绝悟实现了优于其它竞争AI球队的优势,最终成就了冠军之路。

 

6.jpg


WeKick(黄色球衣) vs SaltyFish(本次竞赛第二名)近期的一局比赛实录(传球)

 


此次绝悟WeKick版本夺冠,意味着在绝悟继完全体升级后,其背后的深度强化学习方案又训练出了适应复杂足球竞技场景的AI模型,展现了腾讯AI Lab在前沿AI技术上的研发实力,也验证了腾讯绝悟AI底层架构与方法的通用性。

 

据了解,绝悟团队的研究方向正在从足球比赛中的单个智能体控制向11个智能体同时控制、协同作战深入,当完整的足球独立智能体个数达到11个,强化学习的难度将随着智能体个数的增长呈现指数级的爆炸增长,同时足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间的激励分配也一直是多智能体强化的难题。


在此前5v5形式(多智能体)的谷歌天梯比赛Google Research Football League中,腾讯绝悟团队也摘得冠军,展现了绝悟AI的巨大潜力。

 

从围棋AI绝艺到MOBA游戏AI绝悟再到如今的AI足球队WeKick,腾讯AI Lab的深度强化学习智能体正在步步进化,逐渐向更复杂更多样化的问题迁移,腾讯也正在向通用人工智能的终极目标坚定迈进。长远来看,绝悟背后的研发经验和算法积累,未来还将在AI与农业、医疗及智慧城市等广阔领域的结合上展现巨大潜力,创造出更大的实用价值。


推荐阅读:

「2020中国AI算力报告」重磅出炉:中国怎么解决GPT-3的算力难题?


开源项目在GitHub上贡献33.5W个Star!腾讯的十年「云」答卷,请收好!


你的公益还停在捐款箱?看看开发者如何改变世界


相关文章
|
3月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1684 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1317 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
3月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
928 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
335 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
2月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
274 6
|
3月前
|
机器学习/深度学习 人工智能 运维
强化学习加持运维:AI 也能学会“打补丁”和“灭火”?
强化学习加持运维:AI 也能学会“打补丁”和“灭火”?
222 13
|
4月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
4月前
|
人工智能 自然语言处理 JavaScript
Github又一AI黑科技项目,打造全栈架构,只需一个统一框架?
Motia 是一款现代化后端框架,融合 API 接口、后台任务、事件系统与 AI Agent,支持 JavaScript、TypeScript、Python 多语言协同开发。它提供可视化 Workbench、自动观测追踪、零配置部署等功能,帮助开发者高效构建事件驱动的工作流,显著降低部署与运维成本,提升 AI 项目落地效率。
409 0
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
584 40
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
469 30