从铜线到云端:网络技术的跨越与未来趋势

简介: 本文围绕物理网络和云网络基础知识科普进行展开,最后浅谈在AI大模型浪潮下云网络的演进方向。

1.前言

我是来自阿里云技术服务部的枫桥。从研发架构师转型TAM的几个月时间在服务用云客户以及工单处理过程中,感觉网络是连接云产品以及客户各技术组件的血液,掌握好网络的基础知识以及了解网络云产品的特性对解决的客户问题至关重要,最近抽时间对网络知识进行了梳理。本文围绕物理网络和云网络基础知识科普进行展开,最后浅谈在AI大模型浪潮下云网络的演进方向。


2.物理网络基础知识

在如今这个高度数字化的时代,网络就像一张无形的大网,将全世界的人们紧密地连接在一起。而这张网的基石,便是那神秘而又重要的物理网络。让我们沿着 OSI 网络分层的脉络,一起揭开物理网络(笔者认为物理层到网络层属于真正的物理网络)的神秘面纱吧。

image.png 图片来源自网络


2.1物理层-网络基石

想象一下,你正坐在家中,用电脑给远在异国的同学发一封邮件,当你写完邮件,点击发送按钮的那一刻,一场奇妙的旅程便在物理网络中悄然开启。。这是网络的最底层,就好比是网络世界的地基。它负责将数据转化为可以在物理介质(如网线、光纤、无线电波等)中传输的电信号、光信号或无线电信号。可以把它想象成一条高速公路,数据就像是一辆辆汽车,而物理层的任务就是确保这些 “汽车” 能够在这条公路上顺畅地行驶。例如,网线中的铜芯通过电流的变化来传输数据,光纤则利用光的闪烁来传递信息。没有物理层,数据就根本无法离开你的电脑,更别说能够将网络搜集到资料信息回传到你的电脑上啦。


我们用脑图总结一下物理层:

image.png

一句话总结物理层:连接不同的物理设备,传输比特流。为上层协议提供了一个传输数据的可靠的物理介质。


2.2数据链路层-确保数据的完整性

当数据在物理层的 “高速公路” 上传输时,可能会遇到各种干扰和错误。这时候,数据链路层就闪亮登场啦!它就像一个交通警察,负责监督数据的传输,确保数据能够准确无误地从一个节点传输到另一个节点。数据链路层通过一些协议,如以太网协议,给每个设备分配一个唯一的地址(MAC 地址),这样数据就知道该往哪里去啦。而且,它还能检测并纠正传输过程中出现的错误,保证数据的完整性。

image.png

一句话总结数据链路层:通过以太网协议将物理层的数据包封装成帧,根据帧上的mac地址将数据传输到另一个节点,为下一层网络层提供可靠的传输。


2.3网络层-数据的路由

现在数据已经在本地的网络中顺利传输了,但如果要把消息发送到远方朋友的电脑那里,就需要进入更广阔的网络世界啦。这就是网络层的任务。网络层就像是一个导航系统,它使用 IP 地址来标识网络中的不同设备和网络。当你发送消息时,网络层会根据目标 IP 地址,为数据选择最佳的传输路径,就像导航为你规划从家到朋友家的最佳路线一样。这样,数据就能跨越不同的网络,准确地找到朋友的设备啦。

image.png


一句话总结网络层:物理设备通过使用网络层的IP协议,屏蔽了物理网络之间的差异;当网络中主机使用IP协议连接时,无需关注网络细节,于是形成了虚拟网络。可以说到了网络层才是真正到了我们平时所说的网络。网络层之前是物理网络范畴,后面的传输层和应用层跟物理底层网络关联不大。这里通过场景带入对剩下两层的进行简单阐述。


2.4传输层-确保数据的可靠传输

数据找到了远方朋友的电脑所在的网络,但还需要准确地将你的搜索请求交付到朋友的设备上的相应应用程序(这里指邮箱程序),这时候传输层就发挥作用啦。传输层就像是一个快递分拣中心,它负责将数据分割成合适的大小(称为段),并为每个段添加端口号等信息,确保数据能够准确地交付到目标设备上的正确应用程序。常见的传输层协议有 TCP(传输控制协议)和 UDP(用户数据报协议),TCP 提供可靠的、面向连接的传输服务,就像寄挂号信一样,确保数据准确无误地送达;UDP 则是无连接的,速度快但不保证数据的可靠交付,有点像寄平信。


2.5应用层-提供网络服务

终于,数据到达了朋友设备的应用层,这是网络分层的最顶层,也是离我们用户最近的一层。应用层就像是各种网络应用的 “门面”,它包含了我们日常使用的各种网络应用程序,如网页浏览器、电子邮件客户端、即时通讯软件等。当数据到达应用层后,会被相应的应用程序解析和处理,然后显示在朋友的屏幕上,这样朋友就可以看到你发送的消息啦。比如,你使用微信发送消息,微信应用程序就在应用层接收和处理这些数据,将文字、图片等内容展示出来。通过这几层的协同工作,你的消息已经成功地从你的设备跨越千山万水,准确无误地送到了朋友的手中。网络世界的每一层都像一个小能手,各司其职,共同构建了我们便捷的网络通信环境。最后在技术维度用一句话总结物理网络:通过网络分层模型将光纤,网卡等物理设备封装在物理层,在物理层之上在通过层层封装抽象做到数据包在网络的传输,好处是让上层不感知硬件设备等复杂度。另外网络分层也为云网络的诞生奠定了基础。


3.云网络介绍

3.1为什么需要云网络

随着云计算的不断发展,人们对虚拟化网络的要求越来越高,例如弹性(scalability)、安全性(security)、可靠性(reliability)和私密性(privacy),并且还有较高的互联性能(performance)等需求,因此催生了多种多样的网络虚拟化技术。比较早的解决方案,是将虚拟机的网络和物理网络融合在一起,形成一个扁平的网络架构,例如大二层网络。随着虚拟化网络规模的扩大,这种方案中的ARP欺骗、广播风暴、主机扫描等问题会越来越严重。为了解决这些问题,出现了各种网络隔离技术,把物理网络和虚拟网络彻底隔开。其中一种技术是用户之间用VLAN进行隔离,但是VLAN的数量最大只能支持4096个,无法支撑巨大的用户量。那如何解决这个问题?下面介绍一下笔者认知下阿里云是如何定义和搭建云网络。


云网络定义

云计算的广泛使用正在改变云原生的定义,云原生正从狭义的云原生定义,即“微服务+容器+持续交付+DevOps”,向广义的云原生定义转变,即“因云而生的软件、硬件、架构就是真正的云原生”。云网络作为云计算标配的IaaS核心产品线,第一天就是依云而生,更是生而为云的,是真正云原生的网络 ----阿里云智能事业群研究员、网络产品负责人祝顺民


3.2搭建云网络的核心技术

云网络核心组件

image.png

下面着重介绍一下比较重要的组件VPC 虚拟私有网络在阿里云这边也叫专有网络:


VPC原理描述


基于目前主流的隧道技术,专有网络隔离了虚拟网络。每个VPC都有一个独立的隧道号,一个隧道号对应着一个虚拟化网络。


  • 一个VPC内的ECS(Elastic Compute Service)实例之间的传输数据包都会加上隧道封装,带有唯一的隧道号标识,然后通过物理网络进行传输。
  • 不同VPC内的ECS实例由于所在的隧道号不同,本身处于两个不同的路由平面,因此不同VPC内的ECS实例无法进行通信,天然地进行了隔离。

基于隧道技术和软件定义网络SDN(Software Defined Network)技术,阿里云在硬件网关和自研交换机设备的基础上推出了VPC产品。

VPC逻辑架构

如下图所示,VPC包含交换机、网关和控制器三个重要的组件。交换机和网关组成了数据通路的关键路径,控制器使用自研协议下发转发表到网关和交换机,完成了配置通路的关键路径。配置通路和数据通路互相分离。VPC中的交换机是分布式的节点,网关和控制器都是集群部署且多机房互备,所有链路上都具备冗余容灾,提升了VPC的整体可用性。

image.png

在聊聊大家常听的overlay,underlay到底是什么,和云网络有什么关系?

Overlay、Underlay 与云网络的紧密关系

在云网络的构建和运行中,Overlay(覆盖网络)和 Underlay(底层网络)是两个至关重要的概念,它们相互协作,共同支撑起云网络高效、稳定地运行。


1. Underlay 底层网络

  • 定义与本质:Underlay 底层网络是云网络的物理基础,它通常由一系列的物理网络设备,如路由器、交换机、光纤线缆等构成,是实实在在存在于数据中心或网络基础设施中的硬件连接部分,也就是第一节说的物理网络。
  • 功能及作用:其主要功能是提供最基本的数据转发路径,确保数据包能够在不同的物理节点之间进行传输。例如,在一个大型的数据中心里,服务器之间通过网线连接到交换机上,交换机再通过光纤与其他交换机或者路由器相连,形成复杂的网络拓扑结构,这些物理链路构成的网络就是 Underlay 网络,它保障了数据从源服务器能按照既定的物理链路规则传递到目标服务器。
  • 举例说明:想象一个跨地域的数据中心,位于北京和上海的数据中心机房里,众多服务器要实现互联互通,那么机房内部以及两个机房之间铺设的光纤、配置的交换机、路由器等构成的网络链路就是 Underlay 网络,所有的数据传输最开始都要依赖这些物理链路来完成第一步的传递。


2. Overlay 覆盖网络

  • 定义与本质:Overlay 覆盖网络是构建在 Underlay 底层网络之上的虚拟网络,它通过软件和虚拟化技术实现,对底层物理网络资源进行抽象和整合,从而创建出逻辑上独立、隔离的虚拟网络环境,类似于在已有的道路(Underlay 网络)基础上,通过规划不同的行车路线、设置特殊标识等方式构建出专属于某些车辆类型(不同虚拟网络)的虚拟交通网络。
  • 功能及作用:Overlay 网络可以实现多租户之间的网络隔离,不同租户在云环境中虽然共用底层的物理网络设备,但通过 Overlay 网络能拥有各自独立、安全的虚拟网络空间,彼此的数据不会相互干扰。而且它能提供灵活的网络配置,比如可以方便地调整虚拟网络的拓扑结构、IP 地址分配等,不受限于底层物理网络的布局。
  • 举例说明:在一家云服务提供商那里,有多个企业租户租用其云资源。企业 A 希望构建自己内部研发、测试、生产不同环境的虚拟网络,企业 B 也有类似需求,通过 Overlay 网络技术,云服务提供商可以在同一个数据中心的 Underlay 物理网络基础上,为企业 A 和企业 B 分别构建出相互隔离、符合各自业务逻辑的虚拟网络,企业 A 的员工只能在自己的虚拟网络里访问相应资源,不会看到企业 B 的任何信息。


3. 二者协作关系


在云网络中,Underlay 和 Overlay 相互依存、协同工作。Underlay 为 Overlay 提供物理链路支撑,没有稳固可靠的 Underlay 网络,Overlay 所构建的虚拟网络也就失去了传递数据的物理通道,如同空中楼阁。而 Overlay 网络则充分利用 Underlay 的物理资源,通过软件定义等技术挖掘出更大的网络价值,实现更加灵活、安全、高效的网络功能,让云网络能够满足不同用户、不同业务场景的复杂需求。


所以,在深入了解云网络时,对 Overlay 和 Underlay 的认识和介绍是非常有必要的,它们是云网络架构中的关键组成部分,深刻影响着云网络的整体性能和功能实现。


4.从物理网络到云网络

云网络中很重要的一部分是基于物理网络构建出的虚拟网络层,也就是常说的 Overlay(覆盖网络)。Overlay 网络是构建在底层物理网络(Underlay)之上的,通过如 VXLAN、NVGRE 等技术对网络流量进行封装等操作。另外云网络的构建不仅仅是简单地基于物理网络虚拟出一层网络这么简单。它还涉及到诸多关键技术和组件协同工作:

  • 软件定义网络(SDN):将网络的控制平面与数据平面分离,通过软件层面的控制器对网络进行集中管控、灵活配置路由策略、分配带宽等,这种控制层面的设计并非单纯基于物理网络虚拟一层网络能涵盖的,它深刻影响着云网络整体架构和运行逻辑。
  • 网络功能虚拟化(NFV):把原本依靠硬件实现的网络功能,像防火墙、负载均衡器等以软件化虚拟功能形式运行在通用服务器上,这也是云网络架构里重要的一环,和单纯在物理网络上虚拟网络层的概念不同。


4.1云上网络和云下网络如何打通

你如果在淘宝购买了一本《计算机网络》这本书通过快递进行履约配送。完成这个业务流程大概率会有快递公司IDC网络和阿里云网络的数据传输。那如果实现云上网络和云下网络的打通?


某企业在杭州拥有一个本地IDC,已通过物理专线和VBR实例连接至阿里云;同时,企业在阿里云华东1(杭州)地域创建了VPC1和VPC2,2个VPC使用云服务器ECS(Elastic Compute Service)分别部署了应用服务,本地IDC与VPC、VPC与VPC之间互不相通。现在因业务发展需要,企业需要本地IDC与VPC、VPC与VPC之间可以互相通信,资源互访。


企业可以使用云企业网产品,将2个VPC和1个VBR连接至华东1(杭州)地域的转发路由器实例,快速实现同地域下本地IDC与VPC、VPC与VPC之间的资源互访。

image.png

最后用脑图梳理了一下从物理网络到阿里云网络的相关概念:


image.png

5.AI大模型浪潮下云网络的演进方向

在当今AI 大模型飞速发展的时代,AI 大模型的训练参数已达到万亿级别,如此庞大的训练任务无法依靠单个服务器完成,而是需要众多服务器作为节点,通过高速网络构搭建分布式算力集群。这就涉及不同节点的数据通过网络进行数据交换。这样的网络不仅能够确保数据的快速传输,还能保证训练过程的稳定性和高效性。高性能与高可用的网络对于 AI 大模型的构建具有举足轻重的意义。目前主流云厂商在AI大模型底层网络支撑方面大都通过RDMA做了优化,在这里简单介绍我了解到的阿里云在RDMA和其他网络底层模块的工作和进展:  


5.1高速RDMA网络架构

阿里巴巴2016年开始投入专项研究RDMA(Remote Direct Memory Access),以改造RDMA,提高传输性能。目前已建成大规模数据中心内的“高速网”,时延降低90%,支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务。同时,通过大规模RDMA网络部署实践,阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法,并通过智能网卡实现了协议硬件卸载,降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。


5.2高性能集合通信库ACCL

灵骏支持高性能集合通信库ACCL(Alibaba Collective Communication Library),结合硬件(例如:网络交换机),对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。在AI集群层面,通讯的碰撞是计算延迟的主要来源。除了架设集群通信的“高速公路”(即RDMA高速网)外,还需要进行合理的通讯调度,避免“堵车”。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效(计算)性能可达95%以上,可满足80%以上的业务场景需求。


5.3高性能数据主动加载加速软件KSpeed

灵骏基于高性能网络RDMA和高性能通信ACCL,研发高性能数据主动加载加速软件KSpeed,进行智能数据IO优化。


计算存储分离架构广泛存在于AI、HPC、大数据业务场景中,但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed,实现数据IO数量级性能提升。


例如:在部分场景中,数据加载耗时可占据训练整体时长60%以上,KSpeed能够实现内存级数据主动预加载,数据加载时长缩减到10%以内,相当于把单位时间内的计算性能提升了1倍。基于以上网络层面的定制优化和容器虚拟化eGPU,阿里云PAI-灵骏平台可以支撑图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。

1738921571666_A8CB264A-9592-4854-87C5-F1FC6087D52F.png

6.结语

从物理网络到云网络,网络技术随着技术浪潮的更迭不断演进,但是其中用到的底层基础知识万变不离其宗,展开来说从物理主机->虚拟机->云原生容器化,大多是依赖我们大学学习的《计算机组成原理》的核心组件在通过各种虚拟化的方式来实现,我们掌握计算机底层知识对紧跟技术演进方向会有所助力。最后希望通过本文的阅读能够对同样想了解云网络的朋友有所帮助。


参考资料:

参考一

参考二

参考三





来源  |  阿里云开发者公众号

作者  |  枫桥

相关文章
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171369 16
|
2天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
1594 95
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150306 32
|
9天前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
7578 85
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
10天前
|
人工智能 自然语言处理 Java
Spring AI,搭建个人AI助手
本期主要是实操性内容,聊聊AI大模型,并使用Spring AI搭建属于自己的AI助手、知识库。本期所需的演示源码笔者托管在Gitee上(https://gitee.com/catoncloud/spring-ai-demo),读者朋友可自行查阅。
925 41
Spring AI,搭建个人AI助手
|
2月前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201990 15
对话 | ECS如何构筑企业上云的第一道安全防线
|
2天前
|
机器学习/深度学习 人工智能 并行计算
一文了解火爆的DeepSeek R1 | AIGC
DeepSeek R1是由DeepSeek公司推出的一款基于强化学习的开源推理模型,无需依赖监督微调或人工标注数据。它在数学、代码和自然语言推理任务上表现出色,具备低成本、高效率和多语言支持等优势,广泛应用于教育辅导、金融分析等领域。DeepSeek R1通过长链推理、多语言支持和高效部署等功能,显著提升了复杂任务的推理准确性,并且其创新的群体相对策略优化(GRPO)算法进一步提高了训练效率和稳定性。此外,DeepSeek R1的成本低至OpenAI同类产品的3%左右,为用户提供了更高的性价比。
707 10
|
12天前
|
人工智能 JavaScript 前端开发
白嫖 DeepSeek ,低代码竟然会一键作诗?
宜搭低代码平台接入 DeepSeek AI 大模型能力竟然这么方便!本教程将揭秘宜搭如何快速接入 DeepSeek API,3 步打造专属作诗机器人,也许你还能开发出更多有意思的智能玩法,让创意在代码间自由生长。
1551 13
|
10天前
|
Linux iOS开发 MacOS
DeepSeek爆火,如何免费部署到你的电脑上?获取顶级推理能力教程来了
如何在本地电脑上免费部署DeepSeek,获取顶级推理能力?只需三步:1. 访问Ollama官网下载并安装对应操作系统的版本(支持macOS、Linux和Windows)。2. 打开Ollama并确保其正常运行。3. 在Ollama官网搜索并选择DeepSeek模型(如deepseek-r1),根据电脑配置选择合适的模型大小(1.5B至671B)。通过终端命令(如ollama run deepseek-r1:1.5b)运行模型,即可开始使用DeepSeek进行推理。退出模型时,在终端输入/bye。更多详情请参考Ollama官方文档。