巨人网络《超自然行动组》携手阿里云打造云原生游戏新范式

简介: 通过 ACK(容器服务)、ESS(弹性伸缩)、网络型负载均衡 NLB、OpenKruiseGame(OKG)、SLS(日志服务)、ARMS(应用实时监控服务)、阿里云原生防护(Native Protection),以及云原生数据库 polardb 和 Redis 的深度协同,巨人网络构建了一套高弹性、高可用、低成本、智能化、高安全且高性能数据处理能力的新一代游戏基础设施,为行业树立了云原生落地的标杆。如今,随着日活跃用户(DAU)突破千万大关,这套技术体系,已经成为游戏行业“云原生转型”的标杆案例。

从开服第一天起,就跑在云上;

上线一年,DAU 已经突破 1000 万;

高峰期百万玩家同时在线,零重大故障。


这不是科幻,而是巨人网络与阿里云共书写的云原生实战。

1773811529472_fca37135af494e8d8ce8874ed328b80a.png

《超自然行动组》的云原生架构先行战略


2025 1 月,巨人网络推出多人组队欢乐冒险游戏《超自然行动组》,凭借创新的中式微恐+多人合作"的独特玩法,迅速成为现象级产品。最近,《超自然行动组》宣布 DAU 突破 1000 万,更攀升至 iOS 游戏畅销榜第四。尤为值得一提的是,自开服第一天起,这款游戏从未部署在任何物理机或传统虚拟机上——它从第一天起,就运行在云原生架构之上


对于大多数游戏公司而言,上线即爆款是甜蜜的烦恼——流量洪峰来得快、退得慢,而传统架构却笨重


  • 游戏服(如战斗服、房间服)部署在固定服务器,扩容需数天;
  • 为应对峰值需长期预留资源,空闲时浪费严重;
  • 版本更新靠脚本,灰度发布难,一出错就全服回滚
  • 日志分散、监控割裂,故障定位动辄几小时;
  • 安全防护薄弱,易受 DDoS 攻击;
  • 数据层瓶颈突出:战斗结算延迟、排行榜卡顿、玩家数据丢失等问题频发。


《超自然行动组》团队深知:若沿用旧模式,很可能倒在成功的路上


于是,他们选择了一条更难但更远的路——全面拥抱云原生


通过 ACK(容器服务)、ESS(弹性伸缩)、网络型负载均衡 NLBOpenKruiseGameOKG)、SLS(日志服务)、ARMS(应用实时监控服务)、阿里云原生防护(Native Protection),以及云原生数据库 polardb Redis 的深度协同,巨人网络构建了一套高弹性、高可用、低成本、智能化、高安全且高性能数据处理能力的新一代游戏基础设施,为行业树立了云原生落地的标杆。如今,随着日活跃用户(DAU突破千万大关,这套技术体系,已经成为游戏行业云原生转型的标杆案例。


高弹性×低延迟×零故障:解码<超自然行动组>的云原生底座


《超自然行动组》基于阿里云 ACK OpenKruiseGameOKG)构建了业界领先的云原生游戏服架构:通过蓝绿发布与原地升级实现零停机、无感交付;通过 OKG+ NLB 资源池,全面覆盖 BGP、电信、联通、移动等主流线路,实现多运营商网络自动化映射。结合 HPA 智能扩缩容与 OKG 优雅下线机制,在成本与用户体验间取得平衡;通过 ACK Koordinator 组件,实现 CPU Burst QoS 精细化调度,显著提升集群资源利用率;并通过基础设施与业务状态的双向感知,构建起业务语义驱动的自动化运维闭环——真正实现了高弹性、高可用、高性能、高安全的新一代游戏后端体系。在显著降低运维压力的同时,实现了机制化、可持续的成本优化


在网络层面,作为一款对延迟极度敏感的竞技手游,《超自然行动组》依托阿里云打造了云边协同、三网通吃、弹性集约的新一代云网络架构:通过 OKG NLB 实现电信、联通、移动、BGP 四线并发接入,全国玩家自动匹配最优链路,并以静态网络+动态计算创新模式达成 50 节点/分钟的极速扩容,15 分钟内可拉起数千战斗服,彻底告别排队;同时,借助阿里云高速通道,将本地机房的账号、支付等核心系统与上海 VPC 内网直连,构建毫秒级同步、金融级安全的混合云中枢;并通过共享带宽包统一聚合公网出口,在简化运维的同时显著降本,为玩家交互与高频状态同步提供弹性带宽蓄水池,真正实现千万玩家同场竞技零卡顿、零等待的极致体验。


在数据层面,云原生 polardb Tair(兼容 Redis构建了弹性,稳定的玩家存档方案,支持千万级玩家高并发登录和读写,基于 polardb 云原生数据库的存算分离和弹性能力,支持游戏在活动期间自动扩展弹性,并且支持玩家数据的秒级备份和回档,大幅降低了数据库的运维成本,并且 PolarDB Serverless 支持自动扩容和缩容,能够根据用户访问量的实时变化,秒级调整计算资源。在高峰时期自动增加资源,低谷时期自动减少资源,确保社区始终运行在最佳状态。基于阿里云 Tair(兼容 Redis支持玩家超高并发的访问,作为实时排行榜、战斗状态缓存和匹配池的核心,依托多线程与持久内存优化,单实例 QPS 超百万,实现毫秒级排名刷新、瞬时结算与断线无缝恢复。


当数百万玩家涌入《超自然行动组》,DDoS 攻击成为影响体验的关键风险。为此,巨人网络联合阿里云,基于云原生安全架构打造了一套高性能、智能化的防护体系。该方案依托阿里云原生高防能力,无需架构改造,一键接入即可实现 TB DDoS 攻击的毫秒级识别与精准清洗,防护能力行业领先。即便在版本更新或大型赛事等高并发场景下,系统仍保障 99.99% 以上服务可用性,真正做到攻击零感知、切换无中断。面对突发流量洪峰,系统支持防御带宽自动弹性伸缩,动态调配资源,避免因容量不足导致服务中断。同时,通过集成安全事件中心,运营团队可实时监控攻击事件,分析攻击类型与特征,并结合 AI 驱动的策略建议,快速部署定制化游戏协议防护规则,显著提升响应效率与防御精准度。从高效清洗到智能决策,阿里云以稳定、高效、安全为核心,为《超自然行动组》构筑起坚不可摧的数字护盾,在保障千万玩家流畅竞技的同时,也为游戏行业树立了云原生安全新标杆。


对于《超自然行动组》这款主打实时互动的竞技游戏,能跑只是起点,看得清、查得准才是保障千万玩家流畅体验的关键。运维团队摒弃传统分散监控工具,基于阿里云日志服务 SLS 、云监控 CMS Prometheus 服务、Grafana 服务,搭建起轻量、标准、深度集成的可观测体系:


  • 依托 Prometheus 实时采集百万级 PCU 下的资源水位与在线人数、匹配时长等核心业务指标,确保高并发下监控精准不丢点;
  • 通过 SLS 统一汇聚全链路日志,支持按 RequestID / 玩家 ID 秒级还原行为路径,结合 SQL 分析与自定义规则,实现地图报错统计、异常操作追踪;
  • 借助 Grafana 打造统一全景大盘,融合展示指标与日志数据,告警时可一键跳转 SLS 查看关联日志,实现指标发现问题、日志定位根因的闭环,将故障响应时间从小时级压缩至分钟级,充分发挥云原生可观测与协同优势。

1773812234088_7c29708305eb43c3b45bbc6bc7124884.png

超自然云原生架构


从“能跑”到“跑赢”:OKG 重塑游戏后端新范式


当一款游戏从能跑走向跑得快、跑得省、跑得稳,背后一定有一套先进的技术底座在支撑。《超自然行动组》的故事,源于巨人网络,也属于所有正在思考如何用云原生重构游戏后端的开发者。

1773812514341_23065294b3c74974a4b78364d014c6bb.png

面对全球游戏市场对高并发、低延迟及快速迭代的极致追求,OpenKruiseGame (OKG) 作为阿里云打造的为游戏而生的云原生游戏服管理方案,正成为推动行业架构平滑升级的核心引擎。针对游戏业务特有的异构性管理难题,OKG 提供了从精细化配置、自动化网络接入到业务状态感知的一站式管理体系。它不仅极大降低了游戏厂商的云原生转型门槛,更通过全球多地域一致性交付能力,助力开发者突破地域限制,实现业务的快速敏捷部署与全球化扩张。

1773812745241_e90ba355c6924981b684a94b398494de.png

云原生,已不再是互联网应用的专属,而是下一代游戏基础设施的必然选择。

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
10天前
|
人工智能 IDE Linux
手把手教你把 Gemini CLI 塞进 IntelliJ IDEA:ACP 集成指南
ACP(Agent Client Protocol)让Gemini CLI无缝入驻IDEA:无需切换窗口,直接在AI Assistant中@Gemini,即可理解项目、改代码、执行命令。四步配置(装CLI→查路径→写acp.json→重启IDE),支持项目感知与终端联动,开发效率跃升!
|
2月前
|
存储 人工智能 Java
用 AgentScope Java 开家 AI 奶茶店
开一家 AI 奶茶店,让 AgentScope Java 替你打理一切。
778 31
|
6天前
|
存储 数据采集 人工智能
先建“语义基座”,再谈运维智能!阿里云以 Operation Intelligence 定义 AIOps 新范式
通用大模型的到来与数据整合技术的突破,正在重塑 AIOps 的底层逻辑。
197 10
|
6天前
|
消息中间件 人工智能 缓存
一行命令,给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测,让养虾更经济更安全
本文将聊聊如何用一行命令,给你的 OpenClaw 装上一台 X 光机——让每一次 LLM 调用、每一步工具执行、每一个 Token 的消耗,都从水下浮出水面。
|
12天前
|
人工智能 安全 Serverless
让 AI Agent 安全“跑”在云端:基于函数计算打造 Agent 代码沙箱
Agent 代码沙箱是保障 AI 智能体安全执行的核心基础设施。依托函数计算构建强隔离、有状态、低成本的 AI 运行时。
|
1月前
|
人工智能 安全 测试技术
从传统编程转向大模型编程
本文提出“文档即源码”新范式,倡导开发者从“代码产出者”转型为“文档定义者”。核心是用结构化文档(需求/架构/约束)驱动AI生成代码,实现“改文档→自动重写代码”,提升知识复用性、模型无关性与安全可控性。
从传统编程转向大模型编程
|
17天前
|
消息中间件 存储 NoSQL
Redis 十大经典使用场景 - Go 语言实战指南
本文详解 Redis 在 Go 中的 10 大核心应用场景:缓存、会话存储、限流、排行榜、消息队列、发布订阅、实时分析、分布式锁、地理位置、购物车,并提供完整可运行代码与最佳实践,助你高效构建高性能应用。(239字)
|
4天前
|
人工智能 机器人 Serverless
打造云端数字员工:OpenClaw 的 SAE 弹性托管实践
OpenClaw GitHub星标破14万,标志着AI从对话框迈向自主智能体,以轻量CLI启动本地网关,提供安全、持久、可扩展的Agent运行时。依托阿里云SAE全托管Serverless容器环境,开箱即用、秒级弹性扩缩与跨可用区高可用,让AI真正成为可交付结果的“数字员工”。
|
25天前
|
JSON 缓存 API
美股实时行情与 K 线数据对接
本文详解如何用StockTV全球金融API快速接入美股实时行情、K线、指数及IPO等数据,支持NYSE/NASDAQ双交易所,提供REST/WS低延迟接口,涵盖个股、指数、涨跌榜等全场景,助开发者高效构建全球资产配置工具。(239字)
|
1月前
|
人工智能 前端开发 IDE
AI 原生研发范式:从“代码中心”到“文档驱动”的演进
本文讲述在 AI 编程时代,通过 SDD解决上下文腐烂、审查瘫痪、维护断层三大工程失序问题,并提供一套轻量、可落地的人机协作 SOP。
AI 原生研发范式:从“代码中心”到“文档驱动”的演进

热门文章

最新文章