云栖专刊 | 深度解读阿里云网络全新能力升级,助力企业出海和AI创新

简介: 阿里云飞天洛神云网络在2025云栖大会发布全新升级,聚焦企业出海与AI创新,推出确定性网络、智能云网络及AI for Network三大能力,提升全球连接质量,构建高效、安全、智能的云网络底座。

2025 云栖大会期间,杭州·云栖大会,在阿里云网络技术分论坛,阿里云网络产品线负责人祝顺民带来《简单易用的智能云网络,助力企业出海和 AI 创新》的主题演讲,全面阐释过去 1 年阿里云飞天洛神云网络的产品思考和能力升级。

十六年来,阿里云网络始终坚持“让网络更简单”的理念,无感地支撑好用户业务规划,让用户可以专注到业务创新,把网络放心地交给阿里云;今年面向企业出海和 AI 创新浪潮带来的对云网络的新挑战和需求,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化这 4 大产品能力延展方向,带来全新的产品服务升级:

  • 物理网络资源建设提速,保障 AI 业务快速发展:
  • 过去 1 年,阿里云网络资源和质量持续提升,海外运营商接入增加 20%,公网接入带宽提升 50%,平均时延降低 7%~20%,为用户提供更优质的全球连接;
  • 借助专用海缆 + 城市内微波 + 空芯光纤建设亚太超低时延链路(新加坡 - 中国香港 - 日本),比如香港 - 东京时延低至 39.5ms
  • 构建可掌控、可信赖的确定性网络,为 AI 业务提供更高的可靠性:
  • “将确定性作为第一性原理。它不是一个简单的 SLA 数字,而是贯穿架构设计、交付运维和成本管理全流程的核心理念,是确保客户业务稳定可靠的一切基础。”
  • 围绕安全确定性、高可用确定性、性能确定性、弹性确定性以及成本确定性五个维度,不断升级云网络产品架构能力,去提升云网络整体的确定性和可预测性;比如提供安全内生化、更加韧性的容灾机制、基于 ZooRoute 的端到端确定时延的连接,以及基于端到端 QoS 方案实现在同一张网络中的 AI 业务有序混跑;
  • 云网络技术栈全新升级技术新范式,构建高效 AI Infra:
  • “AI 时代,网络不再只是算力的被动承载者,而是与算力共生的协同引擎。它必须深度感知算力的动态需求,主动、智能地优化数据路径、调度计算任务、简化资源访问,将全球算力节点编织成一张统一、高效、自适应协同的算力网络。”
  • 发布 ALB 智能版,支持大模型服务、推理任务、MCP 资源等 AI 场景,打造 AI 领域的全场景负载均衡;
  • GA 全新升级,提供全球视角的、兼具安全、加速、全局分发的网络接入能力,保障 AI 服务全球一致体验,助力 AI 智能体快速全球化;
  • 云上数据中心网络提供高性能 VPC RDMA 网络,超低延迟让用户在云网络中体验到RDMA带来的优越性能,支持 200Gbps 高性能计算实例带宽,降低 60% 端到端时延,提升 AI 训练及推理效率,适用于 AI 训推场景 PD 分离架构下 KV Cache 高性能传输,或者自建分布式存储系统中节点间数据交互延迟降低;
  • PrivateLink 提供跨地域端到端私网连接,降低跨域访问复杂度,省去搭建 CEN 全球网络步骤,实现一键接入跨地域算力服务/集群;同时完整的 RAM 鉴权,保证用户全程数据安全。
  • AI for Network,以 AI 重塑运维:化繁为简,让客户专注业务创新
  • “AI 时代,业务进化的速度,超越以往任何时刻;运维复杂度呈指数级攀升,如何化繁为简,让客户专注业务创新?面向未来,网络运维必须完成从“被动救火”到“主动免疫”的范式跃迁”
  • 云网络 IPAM 再升级,支持地址资源自动发现、跨账号共享,资源目录服务委派等新能力,实现网络地址高效自动化管理。
  • 从工具集到答案集,网络智能服务(NIS)持续进行智能化演进,新推出网络 AI 助手,为用户提供基于自然语义的云网络全生命周期运营;提供从网络规划、网络部署到网络运营的网络全生命周期的 AI 运维能力,既可以基于卓越架构指导,辅助真实网络数据,给出最佳实践,并同步提供 IaC 代码可直接部署;又可以基于云网络专家经验,通过 MCP 调用丰富运维工具、给出问题根因及修复建议等,全程数据安全合规。
  • 阿里云飞天洛神云网络坚持开放的生态伙伴合作计划,持续与伙伴坚定同行,共筑 AI 时代智能网络底座 :在机房预连网络、云上 SD-WAN 集成、云上 / 云下网元管理等多个领域与业界领先的伙伴携手合作,为用户提供给更加丰富和高质量的产品服务;今年新推出 AI 数据集预连网络的合作计划,进一步提升用户 AI 训练和推理效率;

以下是演讲正文(约 10000 字,阅读预计需要 15 分钟)

大家好,欢迎大家来到一年一度的云栖大会云网络分论坛。

在过去的这几年,AI 急速发展,给网络带来非常大的挑战。从最开始大模型语言刚出来的时候,我们就在思考一个问题,网络应该怎样去适应 AI /适配 AI;最开始,其实我们更多关注在训练,所有业界的焦点也都在大模型的训练;那时,我们在想未来 AI 会怎么发展,网络又该怎么去适应 AI 的发展;到今天,我可以相对确定地说,随着 AI 从训练延展到推理,拓展到模型服务,网络为 AI 的服务已经越来越清晰。

今天,我会在这里跟大家分享一下,阿里云网络过去两年在 AI 上的一些思考和进展。

十六年坚持创新,云网络持续演进:从连接到智能


阿里云网络已经做了 16 年。从云网络的第一天开始,网络就是为解决连接而存在,连接的是虚拟机和虚拟机,虚拟机和存储、数据库以及其他的一些应用。到今天,慢慢地我们开始向 AI 去演进,以支撑整个 AI 的发展进程。

整个演进的历程,从第一天只是去创造一个多租户的隔离的云网络的环境;到后来,随着中国企业的出海,我们提供了全球化的服务,我们建立了一个全球化的高性能的云网络;再后来,当客户的应用在云上越来越复杂的时候,我们在云上提供越来越丰富的连接。


在网络的 3.0 阶段(其实这页片子我们已经连续用了 3 年,代表我们的理念是一以贯之的,产品是以终为始的演进策略),我们是提供了应用连接的云原生的网络,在准备这个材料的时候,我们其实也在纠结要不要把智能写上去,到最后还是决定先不写。我们认为智能(AI)才刚刚开始,为现在的 AI 服务的网络,并不一定是几年之后的智能云网络,而且这个迭代会越来越快。所以在我们没想明白的时候,并没有绝对的信心把当前阶段写成一个智能的云网络的阶段,但是我相信这个历程会非常快。

阿里云网络,支撑云和 AI 应用全生命周期部署

接下来,介绍下阿里云网络整个产品体系。

阿里云网络整个产品体系,从最下面的云网络的基础商品,到上面的全球化的网络,提供了一个广泛的连接:在数据中心里面,提供的数据中心网络的连接,再到应用交互网络,这几层的网络产品层次也是随着 AI 的发展,叠加了越来越多 AI 的能力,接下来我会详细介绍这些更新。


物理网络资源建设提速,保障 AI 业务快速发展

AI 网络的发展不仅仅推动了网络产品的发展,还推动了阿里云在基础设施、网络资源上面能力的发展。我们整个物理网络的资源,在过去一年,阿里云对整个物理网络的资源进行了大规模的升级。

阿里云的全球 Region 升级到 29 个,提供 91 个可用区;所有 Region 之间的专线长途带宽,跨国的专线容量达到百 T 级;公网和运营商的连接,全球加起来已经达到 180T 的带宽。


除了最基础的连接容量之外,我们还在海外和更多的运营商进行了直连。在过去一年的时间,阿里云网络直连的运营商数量提升了 20%,海外公网接入的带宽提升了 50%,平均的网络抖动降低了 30%。

此外,阿里云网络持续进行海外公网质量的优化。


大家知道海外的国家特别多,海外的运营商更多,怎么去优化和运营商之间的公网质量,其实是一个比较困难的问题。这需要大量的资源和成本投入,还要叠加大量的运营投入,包括和运营商的人力沟通,质量的监控和调度优化等,这一系列都需要非常大的投入。


除此之外,面向更高质量的需求场景,阿里云网络还新增建设了新加坡-中国香港-日本的一个超低延时的链路,最低时延可以到 39.5ms;如果今天你在海外到香港,到东京,你去找一个运营商去拉一根专线,通常延时至少是 41/42ms起步。在很多金融量化交易,尤其是 web3 的场景里,在追求极致延迟的时候,交易的信息、价格的信息,都希望能够快速地获取,并且让决策的下单流程能够更快执行,对时延有着极致的追求。


我们这里做了两个毫秒的优化,这两个毫秒有着深刻的意义和场景需求。在这两个毫秒的背后,阿里云网络做了到东京的端到端的直连;并且在东京机房内的连接使用了空芯光纤——空芯光纤是现在一个最新的光纤技术;在海缆登陆站之后,我们和供应商一起寻找最快的一个路径以实现最短管道时延;同时我们开始使用微波技术,来进一步降低这个延时。39.5ms 的能力已经上线,微波技术已经在同步地开展测试,我相信很快我们会把这个延迟再降低一个毫秒。

2025 云网络三大核心能力升级,构筑下一代智能云网络


除了最基础的资源上的升级,阿里云网络在产品能力上也做了大范围的升级。第一个是确定性网络,第二个是阿里云网络面向 AI 场景做了非常多的能力升级,同时也包括我们利用 AI 反向重塑和赋能网络。

确定性网络:从“尽力而为”到“确定交付”,超越SLA的承诺

今天的网络事实上是没有达到确定性的,提供了一个尽力而为的传输能力,无论是以太网还是 IP(在过去几十年的时间,恰恰是因为它的尽力而为,反而被业界接受,得到大规模的应用)。但是到了今天,当我们的应用对延迟的需求,吞吐的需求越来越高;对丢包率/抖动,希望能够降到非常低的时候,对于云上的这张网络,我们应该怎么往哪个方向去构建,这是阿里云网络一直在思考的问题。


我们希望在云上提供更加确定性的网络传输性能,让用户更少的去关注网络抖动和协议各方面带来的问题。所以,我们把确定性作为未来追求网络性能的一个非常关键的衡量维度。

在确定性层面,围绕着安全的确定性、高可靠的确定性、性能的确定性、弹性的确定性以及成本的确定性这 5 个方面,阿里云网络做了非常大的努力和技术升级,来提升网络的确定性。


但是,网络的确定性的实现并非易事,因为网络的基础是不确定的。但是,对于阿里云来说,我们有这个责任,也有这个信心,能够把网络的确定性进行大幅度地提升。


接下来,我来介绍一下我们为这个确定性在各个维度而做的具体努力。


高首先是安全的确定性

我相信今天仍然有大部分的用户,如果自己去租用一个 IDC,自己去买交换机、服务器,这样才是最安全的。


但这个真的安全吗?很多用户会认为云不安全,但事实上云的安全比自己基础设施的安全要高很多。为什么?


因为云从第一天构建时的理念就是实现多租户隔离的一个网络;而云作为一个平台的基础设施,事实上是有很大的公信力的,但是永远会有用户会纠结信息和数据安全的问题,当然我们肯定不会看,但是客户一定会有这个担忧;我们理解并尊重客户的这种担忧,为了打消用户这个担忧,阿里云在过去用零信任的一个理念来构建我们这个网络的信息传输;我们将数据中心,所有虚拟机到虚拟机之间的通信进行缺省加密,在网络传输上也做到缺省加密等。

在云上的数据中心实现了加密之后,大家会想,如果我和阿里云建一个混合云,那中间的这根线能不能也实现加密(而这根线也不是用户所拥有的)?今天,我们在混合云专线接入的场景中也提供了专线加密的能力。


至此,从你的数据中心一根专线连到阿里云这个过程中全程都是加密的。到了阿里云上,所有虚拟机和虚拟机也是加密的。我相信这个已经为我们的用户提供了一个极大的安全性。同时,其他的阿里云产品比如存储也提供了缺省加密,确保用户在云上的数据存储的安全性。


所以,随着我们这个安全能力的升级,我相信会给很多用户带来信心上的提升,更多的愿意把数据放到云上来。


高可用确定性

讲完安全的确定性,我们再来看看高可用的确定性。


事实上,云网络的可靠性是远大于自建网络设备的。因为整个云上的网络基础设施一直在升级,无论是里面的交换机,交换机的软件,包括构建在这个基础之上的云网络产品服务,都在持续升级。站在阿里云的角度,我们天然要把所有的软件和我们的产品服务拉到一个版本,这样也可以提升整体的运维效率。阿里云提供的很多网络产品,比如 NAT 网关,GWLB 等,事实上给到用户的都是 Region 级别的高可用。


当然没有百分之百的可靠性,过去我们也曾发生过可用区级别的故障。当故障发生的时候,事实上我们的 NAT,SLB/GWLB 等这些产品受影响的实例,我们在阿里云的后台自动把它切到另外一个可用区了,这一切对客户来说是不感知的。


但是,我们在帮助用户去确保这个可用定性的同时,也在思考一个问题,这种主动帮助用户去做容灾的切换,是否真的是用户所希望的,我们相信用户一定希望有这种机制,但是一定程度上用户可能还希望自己能够可控地切换,可控的意思就是可以按照用户的意愿去做高可靠的容灾,在可用区和可用区之间按客户的意图去切换。


所以,这一次我们的 VPC 路由表增加了路由目标组的功能。

简单的来说就是 VPC 的一条路径,一条路由,下面一个目的地址,后面我们可以跟两个下一跳,;而且为这两个下一跳提供一个健康检查标识。在健康检查的基础上,用户可以主动地去做切换,把高可用掌控在自己的手上,按照自己的意图来做可用区级别的高可用。沿着这个设计理念,未来我们会在越来越多的产品上提供基础的高可用能力,把这个决定权和选择权交回给用户,让用户更多地能够自己去控制比如路由切换的场景,也去简化整个运维的思路。


性能确定性

前面讲了高可靠的确定性,再来讲一下性能的确定性。

ZooRoute 在 2023 年首次发布,原来是为解决在广域网链路上的专线的抖动、丢包等问题。通过阿里云网络自主创新的技术,把原来网络的 ECMP 五元组的路径唯一性打破,当路径上发生故障的时候,ZooRoute 会主动地去切换路由,而不依赖于底层的交换机或者路由器,或者其他的网络设备来切换,把主动权控制在产品这一层。大家都知道 TCP 有三次握手,每个包都有重传的机制,大于 3 秒,应用层就会有感知。而 ZooRoute 可以把这个探测—决策—感知—切换控制在 3 秒以内,让业务层不会感知到网络的抖动。


在最初的 2023 年,我们把 ZooRoute 应用到了跨域的互联链路,后来延展到数据中心内部虚拟机—虚拟机之间的通信。今年,在访问互联网的路径,访问云服务的路径上,也把 ZooRoue 技术应用上去。在这几个应用场景的叠加之后,就带来了更多的性能的确定性。


举一个例子,数据中心的交换机非常多,数据中心里面的框式交换机有很多板卡和端口,交换机会坏,板卡会坏,端口也会坏。应用了(ZooRoute)这个技术之后,这个板卡故障后的切换,不再单纯依赖于这个板卡和交换机本身的收敛;同样,一个端口故障的收敛也不赖于交换机的收敛。在应用了 ZooRoute 后,SLA 提升得更高。在绝大部分的场景下,我们可以实现整个端到端的收敛时间小于1秒。


这里有一些数据(上图所示),在过去的半年内,我们监测到的长途链路的抖动和异常发生了 178 起,原来的平均影响时长是 32s,应用了这个技术之后,95% 的场景收敛到 1.5s;网络设备的板卡类异常也发生了 12 起,平均影响时长是 141s,现在我们把它收敛到 2s,大幅降低对应用的影响;还有一些端口类异常的故障,比如光模块会坏,信号衰减等,在发生过的 28 起故障中平均的影响时长是 58s,现在收敛到 1.2s。


成本确定性

讲完了可靠的确定性、性能的确定性,再来讲一个成本的确定性。


随着 AI 应用和 AI 技术的发展,(AI)数据的量提升了很大一个量级;需要进行数据搬迁,数据运输也会比以前的量多很多。当企业在云上的数据传输的频次越来越高,成本越发成为一个问题,尤其是跨地域的专线,包括跨国链路的专线成本都非常高,那么怎么去降低这个成本是我们一直在思考的一个问题


另一方面,当一个企业的应用越来越多的时候,有离线的、在线的、核心的、非核心的,互相争抢一个传输管道。我们在想,能否把 QoS 做起来,在保证核心业务的基础上,能够降低非核心业务对带宽的争抢和对成本的消耗。


所以,我们今天推出了端到端 QoS 的能力。

第一,从你自建的数据中心到云上的这一段专线之间,我们实现了 QoS;

第二,在 Region 内实现了 QoS;

第三,在 Region 和 Region 之间的长途链路上,我们也用了 QoS,再结合我们的金银铜带宽的能力,可以让企业比较灵活的去按照自己的核心业务等级进行成本的规划和成本的节约。

应用了这个技术之后,成本就会变得更加可控。你可以去控制自己铜牌的这个峰值带宽,来压缩成本的投入。


深耕AI智能化:构建高效 AI Infra 驱动全球算力高效流转

在开场的时候我提到,在过去一年,云网络产品为适应 AI 的发展也进行了一个很大的变革。


在早期的时候,大家可能会认为,网络就是一个运力,一个 AI 需要算力和搬运数据,那网络就提供这个带宽就可以了。随着从训练到推理,从推理到模型服务的推进,网络变得越来越跟算力和数据相融合。

所以,我们今天也会带来更多的网络产品中的 AI 能力的更新。


第一个是全球算力的调度,第二个是全程的数据安全,第三个是极致的网络性能。

前面也提到我们的这个全球互联带宽,我们的公网的带宽,还有我们这个专线接入的这个能力,在每一层(物理网络层、网络资源层等)都进行了一个规模化的提升。


在网络的基础连接的产品这一层,我们新增发布 VPC RDMA 的能力;同时,通过阿里云网络云企业网(CEN)和转发路由器(TR)的这个产品组合,再结合前面提到的 ZooRoute 的技术来提升 AI 算力和数据网络的性能和可靠性。


在网络的应用连接的产品这一层,我们推出全新的ALB的智能版;为模型服务访问提供了 Privatelink 跨域私网连接的能力;同时我们针对全球加速 GA 产品进行了升级,以支持模型服务的全球化发布和部署。


发布 ALB 智能版,打造 AI 领域的全场景负载均衡

首先,针对 AI 应用场景,我们今天带来了全新的 ALB 智能版的发布。

ALB 是阿里云网络的一个应用层负载均衡产品。为应对模型服务的发展,我们进行了非常多的关键能力的升级。在原有 ALB 做应用层负载均衡的基础之上进行大幅升级。我们提供了一个模型代理网关的能力,大家可能会想,ALB怎么去做模型的代理?事实上,大模型虽然参数非常大,但有些场景其实并不需要都要用到大参数的模型。


另一方面,每个模型对输入的上下文长度也会有限制,还有 Token 的价格也不一样。所以,ALB 智能版也推出了模型代理网关的功能,可以去解析 HTTP 请求里面 Prompt 的内容,然后根据前用户配置的各种策略、Token 的长度、成本模型的大小进行智能的路由和决策,来进行负载均衡;


其次,在推理这一块,ALB 可以根据推理的这个复杂度来进行决策。因为 ALB 其实并不知道一个 Prompt 的输入之后,在背后的推理服务到底需要消耗多大的资源去计算这个 Token 输出。所以,ALB 智能版还额外提供外部扩展插件的能力,可以和外部模型的服务进行联动;做推理的任务时,网关可以联动后面模推理任务,基于推理服务的繁忙程度,进行动态的负载均衡的服务。


还有一个就是对于 MCP 工具网关的支持。MCP 事实上今天成为了一个大模型对外提供这个工具的一个标准协议和接口。但其中存在一个问题,当你只支持少量 MCP 工具的时候,你可以把所有的 MCP 工具描述成一定格式的文本,然后输送给大模型。但是,往往一个企业的业务是非常复杂的,API 是非常多的,如果你把所有的这个工具全量地都列出来,无形中会给大模型的推理服务输入大量的 Token,这会让它的压力非常大。为了解决这个问题,ALB 智能版首先提供了模型工具注册的能力,其次提供了模型搜索的能力。当用户展开一个推理任务请求的时候,我们会根据用户的关键字来搜索相关的工具,然后把工具送给大模型,以降低对大模型的压力。除这几项功能之外,还可以进行额外的能力扩展,这里面的每一项功能都是以插件的形式提供,按需/按量收费。你不用的时候,你可以把它关闭,并且不收费。


ALB 智能版全面覆盖了 AI 的系统,大模型的服务推理任务和 MCP 工具这一块的一些场景。同时,产品支持传统应用和 AI 应用混合部署,无论是售卖形态还是使用形态都和原来的产品保持一致性。


保障AI服务全球一致体验,GA 助力 AI 智能体快速全球化

一个模型服务对外提供后,实际上会存在几个特殊的场景需求。第一,模型可能分布在不同的地域。第二,用户可能分布在不同的地域。大家都知道,一个跨国的公网质量是参差不齐的,有的国家比较好,有的相对差一些。

为了解决这个问题,我们的全球加速(GA)产品在原本的这个全球 IP 层面的加速的基础之上,结合模型调度进行负载均衡,根据不同地域的模型的繁忙程度,进行动态的负载均衡。事实上 GA 已经慢慢地升级为一个 GSLB,实现跨地域之间的一个负载均衡的能力。在新的 GA 升级后,我们仍然提供即时开通的这个能力,开通即加速。跨地域/跨国家的公网延迟可以大幅地降低。


另一方面,GA 和安全的结合会更加紧密。我们把 WAF 的能力和 AI 安全的能力也结合进来,可以去做大模型的一些防 DDoS 攻击的,包括伦理层面的安全保护。


支持高性能 VPC RDMA 网络,提升 AI 训练及推理效率

在基础的云上数据中心,阿里云网络这一次也带来了性能的提升;把 VPC 这个南北向流量实现 RDMA 化。阿里云网络在之前已经提供了 eRDMA 的能力,这一次为了把性能再次提升,延时继续降低,我们今天带来 VPC RDMA 的能力,这个功能可以在包括灵骏在内的AI服务器上去应用。


那么什么是 VPC RDMA?事实上,其实就是在我们的南北向的网卡和存储之间的这个通信上,我们通过把 vSwitch 直接 offload 到网卡上面,然后使用我们自研的控制算法,结合使用的原生 RDMA 引擎,并兼容 RoCEv2,最终在 ENI 这个载体上去提供给用户;在用户的灵骏的实例里,直接以一个ENI的形式提供,在这个 ENI 上去使能 RDMA 的功能。本次阿里云网络提供了 200G 的 RDMA 能力,整个端到端的延时降低了 60%。

这个能力可以应用于 AI 的很多场景:第一个典型的场景是大模型的这个训推场景下,KV cache 的传输;如果没有这个能力,你的 KV Cache 的传输一定是在东西向的网卡上面去传输,这会影响原本跨 node 之间 Scale-out 网络里面的传输性能;有了南北向这个 VPC RDMA 的能力,可以避免对东西向流量网卡的打扰,大幅提升 KV cache 传输的能力,降低推理的延迟。


另外一个场景,我们可以支持用户在自有的灵骏实例内部去自建存储,从而减少把一个 checkpoint 或者其他的数据存到一个远端的存储上面的频率。这个功能未来还会和阿里云的 CPFS 去结合。当然用户也可以在这个基础之上去构建多层的,尤其是现在业界比较流行的一个多层的结合内存 SSD 和硬盘的多级缓存机制,来满足一些 Checkpoint ,和一些 KV cache 的保存。


PrivateLink 降低访问复杂度,助力企业级 AI 服务快速全球发布

模型构建之后,要对客户提供服务,一般都是一个跨地域的服务。对于跨地域服务的提供,有的场景是直接通过公网,有的场景是用户希望通过一个内网的环境,提供跨用户、跨账号的服务。对此,阿里云网络已经提供了非常成熟的 PrivateLink 功能。但是原本的 PrivateLink 功能要实现跨地域的互联,事实上还是用户基于我们的云企业网(CEN)打通两个地域之间的网络:


一种方式,是使用方在服务提供方的目标地域里和自己所在的地域去打通一个云企业网,然后去使用模型服务。


另一种方式,是服务提供方,把它的服务从一个地域扩展到另一个地域。比如图中的从北京地域扩展到上海地域,从而可以在上海地域提供 PrivateLink 给使用方去使用。


但是这两种方式都存在组网复杂的问题,无论是哪种方式,都需要去理解什么是云企业网,什么是跨地域的通信。


这一次我们提供了 PrivateLink 跨域的能力,也就意味着服务方和使用方都不再需要考虑一个骨干网该怎么去搭建。因为绝大部分用户没有这个能力去构建一个骨干网(虽然我们已经在云上把一个骨干网的构建变得非常简单了),但是 PrivateLink 跨地域、跨账号的服务提供能力,让这个事情变得更加简单,一键完成部署,并且符合用户对数据安全合规的需求。

以 AI 重塑运维:化繁为简,让客户专注业务创新

网络提供了这些多的产品和服务,丰富了用户的使用场景;但是大家可能会觉得云上的网络功能越来越多,是不是复杂度也越来越高。


而阿里云网络团队一直秉承的一个理念,是希望“让网络更简单”。虽然云上的网络比你自己去买交换机,路由器去自建网络已经变得简单和弹性,但网络出了问题之后,还是会很难排查。因为网络的复杂度体现在网络组件的多样性和网络协议的多样性,最后还要通过一个网络架构把网络给连通起来。所以我们其实一直在思考,我们为AI构建了那么多的能力,反过来我们是不是可以利用AI的能力来提升网络运维的效率。

所以今天我们也把 AI for Network 的能力进行了升级。

这个就是我前面讲到的网络运维面临的一些核心挑战。整个网络的规划特别复杂,尤其是跨地域的时候,就会变得更加复杂,故障的排查效率可能也会更低

当然还有一方面,整个网络建设起来后,它的安全性有没有隐患,稳定性有没有隐患,这些都是在云上使用网络面临的挑战。我们看到很多中小用户其实都不再需要一个专业的网络运维工程师,但是一些中大型的客户,还是有专门的网络团队。所以我们也在想怎么为这些网络团队提供更多的能力,让他们把网络运维这个事情的复杂度也降下来。


IPAM 功能再升级

第一,以前 IPAM 只支持了云上 VPC 的地址的分配和管理,这一次我们支持了云上VPC和云下数据中心之间的IP地址的统一规划和分配;

第二,云上多个账号,多个 VPC 之间也可以进行统一的地址规划,在一个地址空间里面进行分配管理;

另外,升级后的 IPAM 还支持资源目录,可以让用户统一去管理所有的资源池。升级后的 IPAM,更进一步地支持了用户复杂的网络场景和复杂的企业内部的组织架构。


运维革新:AIOps,用 AI 提升云网络运维效率

除此之外,我们也把很多的能力数据化,然后反馈给用户,给到用户的比如说 OSS 或者其它存储上。我们围绕着这个能力的构建——在网络中加入丰富的探针,把网络的各种指标做成真正可观测的。


今天,阿里云网络已经提供了两百多个基础网络的网络指标,覆盖了整个云网络的所有产品。并且我们的这个转发路由器(TR)支持了 TR 流日志和专线流日志的能力。


但是仅有网络指标还不够,并不是所有用户都有能力去根据这些指标去分析可能面临的问题,或者发现已经发生的一些故障。为此,我们进一步去开放了一些成熟的网络监测运维工具,给到用户来降低这个网络运维的复杂度。另一方面,阿里云网络也不可能去解决用户所有的场景的问题,所以我们会把这些指标的数据进行开放,可以存在用户自己的存储,然后由用户自主选择开放给他的服务合作伙伴,由此去构建更丰富的运维/运营能力。因此我们也希望有越来越多的生态伙伴来加入我们,一起服务阿里云的客户。


仅仅有数据和工具,其实还只是解决了一个自动化、数据化和流程化,在网络运维中这个 AI 的能力还是没有构建起来。但是站在用户的视角(尤其受 AI 浪潮的影响),可能在寻求一种新的解法——是否可以依靠用自然语言去解决网络运维的问题,或者说在不需要那么专业的网络背景的情况下,可以了解网络在发生的问题。所以,今天我们构建了自己的网络领域的一个专用大模型,再结合网络领域的知识库,以及一些 MCP 的工具,推出了云网络 AI 助手的功能。


网络 AI 助手:基于自然语义的云网络全生命周期运营

这个网络 AI 助手核心的构成是从最下面我们把网络数据工具做成 API、做成 MCP 的工具,在这个工具基础之上,结合阿里云网络的大模型,去最终理解客户的自然语义,解析客户的意图,进行智能的运维服务,最终把结果反馈到调用其它的工具来解决可能存在的问题。

这里我举一个例子,在网络规划阶段,我们支持以自然语言的方式来进行网络的规划。


网络 AI 助手:基于自然语义的网络规划

比如在某个场景中,用户业务要出海,它的出海目标区域是东南亚,但是它不知道应该选择在阿里云东南亚的哪个 Region 里去部署它的业务。


然后我们把这个自然语义的需求提供给我们的网络 AI 助手,网络 AI 助手经过需求分析以及网络现状质量数据分析给出网络规划方案,比如用户目标是覆盖东南亚,所以建议首选新加坡 Region;因为有跨地域的需求(在国内也有这个 Region),所以就推荐使用 TR 来互联杭州区域和新加坡区域,并且还推荐用 CDT 基于按量付费的方式来降低这个成本;最后基于该配置还可以自动生成对应的 Terraform 的配置脚本,直接把这个资源代码化,用户可以直接把该脚本应用到阿里云上,然后把这个网络给整体快速搭建起来。


网络 AI 助手:基于自然语义的网络部署

在网络部署的阶段,也可以支持用户去使用自然语言的方式。

在网络架构部署阶段,连接已经建立起来,但是可能需要去配置一些路由,配置一些规则,在该过程中可能会产生一些问题。比如说举个例子,我青岛的某个实例和上海的某个实例不通了,用户说“帮我看一下这个问题”。


网络 AI 助手就会去分析当前网络路径,找到可能的原因——比如是路由的缺失,并且给出一个修复操作指导——比如指导用户在对应 TR 实例下去配置相应的路由。


网络 AI 助手:基于自然语义的网络运营

在网络的运营阶段,如果出现了严重的丢包,或者其它的网络问题,那也可以把这个问题以自然语言的方式去问网络 AI 助手。

AI 助手就会去分析今天流量的情况,然后发现已经打满,并且分析日志来查找出异常流量,然后给出这个指导操作,比如通过配置 QoS 去进行有效的限流等。


上述这几个不同网络阶段的例子的背后,依赖于我们自有训练微调了一个网络大模型。该模型基于通义基础大模型去微调出网络领域的专用大模型,把我们的专业的网络运营经验和产品能力做成 RAG,最后把网络指标、流量监控、日志分析等这些能力,做成 MCP 的工具,再把所有这些能力整合到一起提供给我们的用户。


阿里云网络这些年的产品服务创新,离不开我们的用户在推动着我们持续进步。尤其近两年 AI 的发展推动我们要加速演进。所以我们在这里也非常感谢一直以来客户对我们的包容和陪伴。


另一方面,服务于阿里云几百万的客户,一定不是只依靠阿里云就能完成的。我们也需要非常多的优秀的合作伙伴跟我们一起孵化更加优质的产品服务,以更好地满足客户需求。所以在此,我也非常感谢我们的合作伙伴和我们一起努力地服务好阿里云的客户,把最好的价值呈现给客户。

与伙伴坚定同行,共筑 AI 时代智能网络底座


在云网络领域,过去我们发布了预连接的合作伙伴计划;我们也做了 SD-WAN 厂商上云计划,通过云去提供更广泛的跨全球的 SD-WAN 服务;去年,我们也邀请一些优质的安全厂商和网络设备厂商在云上提供虚拟化的网络网元,比如把 GWLB 的能力提供给用户;刚才我们也提到,我们把网络运行的数据指标化,开放给伙伴,希望有更多的伙伴一起来做运维的工具,尤其在 AI 时代,结合 AI 的能力来提供智能云管服务。

今天,我们也新增了一个生态合作计划,那就是 AI 的数据集的预连接网络服务计划,我们希望更多的合作伙伴为用户提供更多的 AI 相关的一些数据集,来提升客户模型训练的效率。


在阿里云云市场的指导下,云网络所有的生态合作计划都提供了非常详细规范的合作流程,并且我们也会给到伙伴非常多的权益。今天,我们在阿里云云市场上面新增了私网接入、公网加速等服务分类的一些标签,来表明特殊场景下合作伙伴具备的这个能力。在这里也再一次感谢我们的合作伙伴,同时也诚挚邀请更多的合作伙伴加入我们的合作计划,一起努力服务好云和 AI 的客户。


好,我的分享就到这里,谢谢大家。



来源  |  云布道师公众号

相关文章
|
2月前
|
人工智能 安全 架构师
2025云栖大会 | 阿里云网络技术Session主题资料和视频回放归档
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
481 2
|
24天前
|
存储 人工智能 大数据
|
3月前
|
存储 人工智能 安全
阿里云中企出海技术分论坛精华概览 | 2025云栖大会回顾
2025云栖大会中企出海技术分论坛聚焦中国企业全球化挑战,阿里云联合易点天下、技威时代等企业,分享从“走出去”到“扎下根”的技术路径。论坛展示阿里云在基础设施、网络、安全、AI与数据库等领域的创新成果,推出全球一张网、AI网关、瑶池数据库等解决方案,助力企业构建安全、智能、敏捷的全球云底座,推动中国技术出海迈向新阶段。
阿里云中企出海技术分论坛精华概览 | 2025云栖大会回顾
|
1月前
|
存储 人工智能 分布式计算
阿里云DLF 3.0:面向AI时代的智能全模态湖仓管理平台
在2025年云栖大会,阿里云发布DLF 3.0,升级为面向AI时代的智能全模态湖仓管理平台。支持结构化与非结构化数据统一管理,实现秒级实时处理、智能存储优化与细粒度安全控制,助力企业高效构建Data+AI基础设施。
605 3
|
18天前
|
人工智能 边缘计算 安全
云栖发布深度解读|以边缘原生定义 AI 时代的开发与交付
阿里云 ESA 「函数和Pages」云栖大会发布会
云栖发布深度解读|以边缘原生定义 AI 时代的开发与交付
|
1月前
|
人工智能
阿里云市场份额连续五季度上涨!
IDC发布《中国公有云服务市场(2025上半年)跟踪》报告,显示阿里云Q2市场份额达26.8%,连续五季增长。上半年IaaS份额为26.4%,同比提升0.8个百分点,市场总规模破千亿,增速近20%,创疫情以来新高,主要受益于AI大模型、智能体应用及云厂商出海布局。
503 1
|
3月前
|
人工智能 云栖大会 调度
「2025云栖大会」“简单易用的智能云网络,加速客户AI创新”专场分论坛诚邀莅临
”简单易用的智能云网络,加速客户AI创新“专场分论坛将于9月24日13:30-17:00在云栖小镇D1-5号馆举办,本场技术分论坛将发布多项云网络创新成果,深度揭秘支撑AI时代的超低时延、自适应调度与跨域协同核心技术。同时来自领先企业的技术先锋将首次公开其在模型训练、企业出海等高复杂场景中的突破性实践,展现如何通过下一代云网络实现算力效率跃升与成本重构,定义AI时代网络新范式。
201 4
|
6月前
|
存储 运维 监控
云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项
阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。
|
1月前
|
人工智能 算法 云计算
谁在幕后“导演”NBA精彩瞬间?AI黑科技首次大揭秘!
10月10日晚,NBA中国赛2025在澳门盛大开启!时隔六年回归,点燃球迷热情。NBA中国携手阿里云,推出AI与云计算驱动的360°实时回放、专属AI模型等创新技术,重塑观赛体验。10月23日直播揭秘黑科技,敬请关注!
谁在幕后“导演”NBA精彩瞬间?AI黑科技首次大揭秘!