EVPN+VXLAN技术详解

简介: EVPN-VXLAN 是构建于 Spine-Leaf 等 IP Fabric(Underlay)之上的 Overlay 控制与转发协议,二者为承载关系而非等价。Spine-Leaf 提供高可用、低延迟的三层网络基础,EVPN(BGP控制面)+ VXLAN(数据面封装)则实现跨物理边界的虚拟二层网络,支持多租户、自动化部署与大规模扩展。

EVPN-VXLAN 不是 Spine-Leaf 架构本身,而是运行在 Spine-Leaf(或其他 IP Fabric)之上的 Overlay 控制与转发协议;
Spine-Leaf 是物理/逻辑网络拓扑(Underlay),EVPN-VXLAN 是构建在它之上的虚拟网络平面(Overlay)——二者是「承载关系」,非等价关系。

就像:  

  • 🏗️ Spine-Leaf = 高速公路网(沥青路面、立交桥、ETC 门架);  
  • 🚛 EVPN-VXLAN = 在这条公路上跑的智能物流系统(带路径规划、货物标签、实时追踪、跨省无缝配送);  
  • 没有高速公路,物流系统无法高效运转;但有了高速公路,你也可以只跑普通货车(静态路由),不一定用智能物流。

🌐 EVPN-VXLAN 全栈架构图(文字版 · 严格分层 · 可直接用于方案设计)

┌───────────────────────────────────────────────────────────────────────────────┐
│                                 APPLICATION LAYER                              │
│  (e.g., AI Training Jobs, VMs, Pods)                                          │
│  ┌─────────────────┐   ┌─────────────────┐   ┌─────────────────┐               │
│  │ 192.168.10.100  │   │ 192.168.20.200  │   │ 192.168.30.300  │               │
│  │ (VNI=10010)     │   │ (VNI=10020)     │   │ (VNI=10030)     │               │
│  └────────┬────────┘   └────────┬────────┘   └────────┬────────┘               │
│           │                     │                     │                        │
├───────────▼─────────────────────▼─────────────────────▼────────────────────────┤
│                           OVERLAY NETWORK (Logical)                            │
│  ┌─────────────────────────────────────────────────────────────────────────┐  │
│  │              VXLAN Data Plane (Encapsulation & Decapsulation)           │  │
│  │  • Original L2 Frame:                                                   │  │
│  │      src MAC = aa:bb:cc:dd:ee:ff                                        │  │
│  │      dst MAC = 11:22:33:44:55:66                                        │  │
│  │      src IP = 192.168.10.100, dst IP = 192.168.20.200                    │  │
│  │    ↓ Encapsulated by VTEP (Leaf)                                        │  │
│  │  • Outer UDP/IP Header:                                                 │  │
│  │      src IP = 10.1.1.10 (Leaf-1 VTEP IP), dst IP = 10.1.1.20 (Leaf-2 VTEP IP)│  │
│  │      dst UDP = 8472 (VXLAN port), VNI = 10020                            │  │
│  │  • Inner L2 Frame preserved intact                                      │  │
│  └─────────────────────────────────────────────────────────────────────────┘  │
│                                                                               │
│  ┌─────────────────────────────────────────────────────────────────────────┐  │
│  │                EVPN Control Plane (BGP-based)                           │  │
│  │  • Type-2 Route (MAC/IP Advertisement):                                  │  │
│  │       RD=10.1.1.10:10020, RT=65001:10020, MAC=11:22:33:44:55:66,         │  │
│  │       IP=192.168.20.200, NextHop=10.1.1.20, ESI=0000.0000.0000            │  │
│  │  • Type-3 Route (Inclusive Multicast Ethernet Tag):                      │  │
│  │       RD=10.1.1.10:10020, RT=65001:10020, Originator=10.1.1.10,          │  │
│  │       Multicast-Group=239.1.1.100                                         │  │
│  └─────────────────────────────────────────────────────────────────────────┘  │
├───────────┬─────────────────────────────────────────────────────────────────┤
│           │                                                                 │
│           ▼                                                                 │
├───────────────────────────────────────────────────────────────────────────────┤
│                         UNDERLAY NETWORK (Physical IP Fabric)                 │
│  ┌─────────────────────────────────────────────────────────────────────────┐  │
│  │               IP Routing Infrastructure (L3 Only)                       │  │
│  │  • Topology: Spine-Leaf (or any ECMP-capable L3 network)                │  │
│  │  • Protocols: OSPF / IS-IS / eBGP (for loopback reachability)           │  │
│  │  • Addressing: Loopback IPs used as VTEP addresses (10.1.1.10, 10.1.1.20…)│  │
│  │  • Forwarding: ECMP across multiple spine links — no STP, no L2 loops    │  │
│  │  • Devices: Spine switches (core routers), Leaf switches (ToR)          │  │
│  └─────────────────────────────────────────────────────────────────────────┘  │
│                                                                               │
│  ┌─────────────────────────────────────────────────────────────────────────┐  │
│  │                  Physical Connectivity                                    │  │
│  │  • Leaf ↔ Spine: 10G/25G/100G Ethernet (no VLAN, no STP)                │  │
│  │  • Server ↔ Leaf: 10G/25G/100G (access ports, possibly with VLAN subif) │  │
│  └─────────────────────────────────────────────────────────────────────────┘  │
├───────────┬─────────────────────────────────────────────────────────────────┤
│           │                                                                 │
│           ▼                                                                 │
└───────────────────────────────────────────────────────────────────────────────┘
                             PHYSICAL LAYER (Optical/Ethernet PHY)

🔍 关键分层说明(按自上而下顺序)

层级

名称

核心职责

是否可编程?

典型设备/协议

L7–L4

Application

运行业务(PyTorch AllReduce、K8s Pod、VM)

是(应用代码)

Python/TensorFlow/K8s

Overlay

VXLAN Data Plane

封装/解封装原始以太帧,携带 VNI 标识租户/子网

是(VTEP 软件或 ASIC)

Linux kernel vxlan、NVIDIA Spectrum ASIC、Cisco Nexus 9000

Overlay

EVPN Control Plane

用 BGP 分发 MAC/IP/IGMP 路由,实现控制面收敛

是(BGP 扩展)

FRRouting、Junos EVPN、Cisco NX-OS EVPN

Underlay

IP Fabric

提供高吞吐、低延迟、ECMP 的 L3 互通能力

⚠️ 有限(配置 OSPF/BGP)

Spine-Leaf 交换机(Cisco N9K、Arista 7280、H3C S12500R)

Physical

PHY Layer

光模块、线缆、SerDes 物理信号传输

否(硬件固化)

QSFP28、OSFP、SMF/MMF 光纤


Spine-Leaf 是 EVPN-VXLAN 的事实标准 Underlay,但不是唯一选择:

Underlay 类型

是否支持 EVPN-VXLAN?

适用场景

缺陷

Spine-Leaf(推荐)

原生支持(BGP EVPN 最佳实践)

大中型 DC、AI 集群、云平台

需专用硬件支持 BGP+VXLAN 卸载

传统三层核心(Router + Distribution)

可行(需路由器支持 EVPN)

运营商边缘、广域互联

扩展性差、ECMP 不均衡、运维复杂

互联网公网(Internet)

技术可行(如 VXLAN over UDP over Internet),但 生产不推荐

远程办公接入(非关键业务)

丢包率高、延迟抖动大、MTU 不确定、无 QoS

纯二层网络(STP/RSTP)

严重不推荐:EVPN 依赖稳定 IP 连通性,L2 网络无法提供可靠 VTEP 通信

已淘汰

广播风暴、收敛慢、无法部署 BGP

💡 为什么 Spine-Leaf 成为事实标准?  

  • 它天然满足 EVPN-VXLAN 的三大底层需求:
    全节点可达(每个 Leaf 的 Loopback IP 必须被所有 Spine 和其他 Leaf 学习到 → BGP/OSPF 确保);
    无环 ECMP 转发(Underlay 不跑 STP,避免广播风暴和链路浪费);
    VTEP 地址稳定(Loopback 作为 VTEP IP,不随物理端口 up/down 变化)。

📌 补充:一张图看懂 VTEP 如何工作(Leaf 角色)

Server A (192.168.10.100)              Server B (192.168.20.200)
        ┌──────────────────────┐              ┌──────────────────────┐
        │  MAC: aa:bb:cc:dd:ee:ff │              │  MAC: 11:22:33:44:55:66 │
        │  IP: 192.168.10.100     │              │  IP: 192.168.20.200     │
        └───────────┬────────────┘              └───────────┬────────────┘
                    │                                     │
                    ▼                                     ▼
             ┌───────────────────┐                ┌───────────────────┐
             │ Leaf-1 (VTEP IP:  │                │ Leaf-2 (VTEP IP:  │
             │ 10.1.1.10)        │                │ 10.1.1.20)        │
             │ • SVI Vlan10:     │                │ • SVI Vlan20:     │
             │   192.168.10.254/24│                │   192.168.20.254/24│
             │ • VXLAN VNI=10010  │                │ • VXLAN VNI=10020  │
             │ • EVPN Type-2:    │                │ • EVPN Type-2:    │
             │   192.168.10.100 →  │←(BGP)────────→│   192.168.20.200 →  │
             │   aa:bb:cc:dd:ee:ff│                │   11:22:33:44:55:66 │
             └───────────┬────────┘                └───────────┬────────┘
                         │                                 │
                         └───────────────┬─────────────────┘
                                 ┌───────────────────────┐
                                 │       Spine Switch    │
                                 │ (IP Fabric Core)      │
                                 │ • Runs OSPF/BGP       │
                                 │ • Routes 10.1.1.10/32,│
                                 │   10.1.1.20/32, etc.  │
                                 └───────────────────────┘

流量路径:
Server A → Leaf-1 → VXLAN encapsulation → Spine → Leaf-2 → VXLAN decapsulation → Server B
全程无 ARP 泛洪、无三层子网边界感知、无 TTL 减 1(因为外层 IP 是 Underlay,内层 IP 是 Overlay)


📘 二层网络核心技术名词解释(EVPN-VXLAN 体系)

名词

定义(一句话)

关键说明

EVPN(Ethernet Virtual Private Network)
(RFC 7432 / RFC 8365)

基于 BGP 的标准化 L2 控制平面协议族,通过扩展 BGP NLRI 类型(如 Type-2)分发 MAC/IP/VNI 等二层状态信息,实现跨物理域的大二层网络自动化构建。

不是新协议,而是 BGP 的语义扩展(AFI=2, SAFI=70);
不封装数据,不替代 VXLAN;只负责“告诉设备往哪发、发什么”;
⚠️ 核心能力 = MAC 学习同步、ARP 代理、BUM 流量优化、多归属保护;
📏 典型部署:Leaf 交换机启用 address-family l2vpn evpn

VNI(VXLAN Network Identifier)
(RFC 7348 §4.1)

VXLAN 封装头中的 24 位标识字段,用于唯一区分不同的逻辑二层网络(租户/业务/子网),是 Overlay 网络的隔离边界。

范围:0–16777215(2²⁴),但 016777215 为保留值;
作用:决定内层以太帧转发至哪个逻辑广播域(类似 VLAN ID,但无 4094 限制);
与 VLAN ID 无映射关系(VNI=10010 ≠ VLAN 10);
🧩 实际绑定:VNI VRF Bridge Domain Subnet(由控制面策略确定)。

VTEP(VXLAN Tunnel End Point)
(RFC 7348 §2)

执行 VXLAN 封装(Encap)与解封装(Decap)的网络节点,拥有 Underlay IP 地址(通常为 Loopback),是 VXLAN 隧道的起点与终点。

角色:Leaf 交换机、服务器 Linux kernel、DPU、智能网卡均可作为 VTEP;
必须具备:① Underlay IP 连通性;② VXLAN 接口配置;③ FDB/MAC 表维护能力;
不是设备类型,而是功能角色(一台设备可有多个 VTEP IP);
📍 典型地址:10.1.1.10/32(Loopback,高可用且不随物理端口变化)。

Underlay 网络

为 Overlay 提供可达性服务的底层 IP 网络基础设施,其唯一职责是确保所有 VTEP 的 Loopback IP 地址可达,并提供低延迟、高吞吐、ECMP 负载分担能力。

技术实现:Spine-Leaf + eBGP/OSPF;也可为传统三层核心;
不感知业务逻辑(不知晓 VNI、MAC、租户);
⚠️ 禁用 STP/RSTP(必须纯 L3);MTU ≥ 9000(防 VXLAN 封装后分片);
📈 评估指标:VTEP 间时延 < 1ms,ECMP 路径数 ≥ 8。

Overlay 网络

构建于 Underlay 之上的虚拟化网络平面,通过隧道(VXLAN)和控制面(EVPN)抽象出逻辑二层域,对终端呈现为“超大交换机”,屏蔽底层物理拓扑。

终端视角:所有同 VNI 主机“在同一台交换机下”;
协议栈:VXLAN(数据面) + EVPN/BGP(控制面) + ARP/ND(终端行为);
不等于“扁平网络”——它有严格的逻辑边界(VNI)和策略控制点(Leaf);
🔐 安全基线:Overlay 内通信默认不加密(需额外 IPsec/Geneve 加密选项)。

Type-2 Route(MAC/IP Advertisement Route)
(RFC 7432 §7.2)

EVPN 中最核心的路由类型,用于通告“MAC 地址 + 对应 IPv4/v6 地址 + 所属 VNI + 源 VTEP IP”,实现主机路由(/32)同步与 Proxy ARP 基础。

触发条件:主机首次发送 ARP/ND 或 IP 流量;
关键字段:
– RD(Route Distinguisher):全局唯一标识该路由所属租户;
– RT(Route Target):控制路由导入/导出策略;
– Next Hop:源 VTEP Loopback IP(即 VXLAN 隧道 dst);
📊 效果:远端 Leaf 收到后生成 <MAC, IP, VNI> 三元组 + /32 主机路由。

Anycast Gateway

多个 Leaf 交换机使用相同的 SVI IP 地址(如 192.168.10.254/24)作为同一子网网关,配合 EVPN Type-2 路由实现分布式网关,消除单点故障与流量瓶颈。

不依赖 VRRP/HSRP —— 高可用由 EVPN 控制面自动保障;
终端 ARP 请求 192.168.10.254 时,由本地 Leaf 直接响应自身 MAC(非选举);
流量路径:Server → 本地 Leaf(网关)→ VXLAN → 目标 Leaf → Server;
🛡️ 优势:东西向流量直通、无集中网关拥塞、迁移零中断。

BUM Traffic(Broadcast, Unknown Unicast, Multicast)

二层网络中无法精确查表转发的三类流量:广播帧(ARP)、未知单播(MAC 表无条目)、组播帧(IGMP);Overlay 中需特殊优化,避免泛洪风暴。

EVPN 解法:
– Type-3 Route 分发 Inclusive Multicast Group(如 239.1.1.100);
– VTEP 加入该组播组,VXLAN 封装 BUM 流量发往组播地址;
– Spine 作为 PIM RP 或 IGMP Proxy 转发;
禁止在 Underlay 启用 IGMP Snooping(会干扰 VXLAN BUM 处理)。

ESI(Ethernet Segment Identifier)
(RFC 7432 §7.7)

一个 10 字节全局唯一标识符,分配给多归属(Multi-homing)的以太网段(如双归接入的服务器),用于 EVPN 中防环、DF(Designated Forwarder)选举及快速故障收敛。

典型场景:服务器双连两台 Leaf(Active-Active);
作用:
– DF 选举:每段仅一个 Leaf 负责转发 BUM 流量(防环);
– MAC 移动检测:ESI 变化触发 Type-1 路由通告,全网秒级更新;
🆔 格式:00:00:00:00:00:00:00:00:00:00 → 通常由厂商自动生成或手动配置。

RD(Route Distinguisher)
(RFC 4364 §4)

BGP VPNv4/vpnv6 地址族中用于全局唯一区分相同前缀(如 192.168.10.0/24)所属 VPN 的 8 字节前缀,保证路由不混淆。

格式:ASN:NN(如 65001:10010)或 IP:NN(如 10.1.1.10:10010);
必配项:EVPN Type-2/Type-5 路由必须携带 RD;
不控制路由传播(那是 RT 的事);RD 仅做“命名空间隔离”。

RT(Route Target)
(RFC 4364 §10)

BGP 扩展团体属性(Extended Community),用于控制 EVPN 路由的导入(import)与导出(export)策略,实现租户间隔离或互通。

格式:type:admin:assigned,常用 ASN:NN(如 65001:10010);
配置原则:
– 导出 RT = 本租户所有路由携带的标签;
– 导入 RT = 本设备允许接收哪些租户的路由;
🔁 示例:租户 A(RT=100:10)、租户 B(RT=100:20)→ 若 Leaf 同时 import 两者,则实现跨租户二层互通(谨慎使用!)。


💡 附:一张帮你建立关系的认知地图(文字版)

┌───────────────────┐
         │    UNDERLAY       │ ← OSPF/eBGP/IPv4 → 确保 VTEP Loopback 互通
         └─────────┬─────────┘
┌──────────────────▼──────────────────┐     ┌──────────────────────────────┐
│           OVERLAY CONTROL PLANE      │     │        OVERLAY DATA PLANE      │
│  ┌───────────────────────────────┐  │     │  ┌──────────────────────────┐  │
│  │            EVPN             │  │     │  │         VXLAN            │  │
│  │  • Type-2 (MAC+IP+VNI)      │←─┼────▶│  │  • Outer IP: VTEP→VTEP     │  │
│  │  • Type-3 (BUM Group)       │  │     │  │  • UDP dport=8472          │  │
│  │  • RD/RT/ESI                │  │     │  │  • VNI=24-bit              │  │
│  └───────────────────────────────┘  │     │  │  • Inner Frame: intact     │  │
└────────────────────────────────────┘     │  └──────────────────────────┘  │
                                           └──────────────────────────────┘
                                     ┌───────────────▼───────────────┐
                                     │       ENDPOINT BEHAVIOR       │
                                     │  • ARP to gateway (Proxy)     │
                                     │  • No cross-subnet ARP        │
                                     │  • /32 host routes in FIB     │
                                     └───────────────────────────────┘

以下文章引用qwen-plus的回答,是我在学习大二层网络的过程文档。

相关文章
|
机器学习/深度学习 人工智能 API
大模型推理服务全景图
国内大模型推理需求激增,性能提升的主战场将从训练转移到推理。
2461 118
|
27天前
|
人工智能 机器人 API
国内值得关注的 AI 资讯网站推荐与每日追踪方法
AI资讯过载?本文精选7个国内优质平台(如RadarAI、机器之心、新智元等),覆盖技术深度、产业落地与开发者实操,并提供“1聚合+2垂直+每日15分钟”高效追踪法,助你快速抓重点、转机会。
1230 6
|
6天前
|
人工智能 运维 安全
Hermes Agent 与 OpenClaw 全面对比:两款热门 AI Agent 框架差异与选型指南
Hermes Agent 与 OpenClaw 是当前开源 AI Agent 领域最受关注的两大框架,二者设计理念、技术路线、能力侧重完全不同,很多用户在选型时容易混淆。本文结合官方定位与实际使用体验,从核心定位、记忆系统、技能机制、安全设计、部署运维、适用场景等维度做完整对比,帮你快速判断哪一款更适合自己。
651 0
|
6天前
|
人工智能 弹性计算 运维
🚀Hermes Agent 部署及进阶使用教程:具备AI “生命”自进化能力的开源智能体实战指南
Hermes Agent是由Nous Research研发的开源AI智能体,主打持久记忆、自主技能生成与持续自我进化,支持私有化部署与多平台接入,能够在持续使用中不断适配用户习惯,实现越用越智能、越用越贴合需求的使用体验。与传统碎片化对话机器人不同,这款智能体更接近具备持续成长能力的数字助手,可独立运行于私有环境,无需依赖外部服务即可完成任务执行、经验沉淀与能力迭代,适合个人效率提升、开发辅助、自动化运维、内容管理与智能家居控制等多种场景。
659 1
|
20天前
|
自然语言处理 数据可视化 机器人
Qwen3.5-Omni全模态模型正式发布:技术解析与应用场景深度解读
阿里通义千问于2026年3月30日发布旗舰全模态大模型Qwen3.5-Omni,支持文本、图像、视频、音频端到端理解与生成,在215项评测中达SOTA。具备超长上下文(256K)、113语种识别、1-2秒实时响应等突破,赋能智能硬件、音视频处理与多语言应用。(239字)
Qwen3.5-Omni全模态模型正式发布:技术解析与应用场景深度解读
|
8天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
2601 27
|
1天前
|
人工智能 JavaScript 调度
一文看懂:Hermes Agent与OpenClaw区别对比,AI Agent双雄对决,谁才是2026最佳选择
Hermes Agent是轻量Python智能体,主打“自进化+持久记忆”,越用越懂你;OpenClaw是TypeScript控制中枢,强在多通道、多智能体编排与成熟插件生态。免费领阿里云Tokens:https://t.aliyun.com/U/fPVHqY 选Hermes重深度成长,选OpenClaw重广度调度。
145 1
|
1天前
|
SQL 人工智能 API
零成本接入 GLM-5.1!Modal 平台免费不限量 API 对接 Claude Code
JeecgBoot AI专题研究 Modal 平台 GLM5.1 免费不限 Token 接入 Claude Code 起因:Claude Code 限流太烦周五下午赶重构任务,Claude Code 连续弹 429 Too Many Requests,Coding Plan 在高压场景下扛不住。
154 1
|
人工智能 并行计算 调度
进行GPU算力管理
本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下,对GPU算力管理和分配带来的挑战。以及面对这些挑战,GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面发展出来的业界通用的技术。
1818 165
进行GPU算力管理