十年,他们在云上修了一条“高速公路”

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
私网连接 PrivateLink,5万GB流量 1.5万小时实例时长
公网NAT网关,每月750个小时 15CU
简介: 阿里云网络的工程师们希望,通过这个平台,帮助企业更加智能地运维自己的网络、更加便捷地配置自己的网络,让上云的企业在“云高速”中实现“自动驾驶”。他们说,把路修的更好,让网络更简单,就是自己的使命。而依靠自研进行创新,是发展的根本力量。

互联网诞生至今,网络世界到底被谁主导?

《达芬奇密码》给出的答案是,整个互联网由十四个手中掌握七把受严密保护的钥匙的人保护着。

所谓“钥匙”,是为保护网站和计算机分配IP地址的DNS进入权限,如果这个权限被一个人获得,他就能主导整个互联网。

现实中,这个掌握钥匙的组织就是ICANN(互联网名称与数字地址分配机构),它的存在确实关系着互联网世界的稳定、开放与唯一性。

但这仅仅是小说或者电影的思维。现实世界中,为人们网上冲浪提供基础设施的,主要是网络运营商与设备厂商。

网络领域很长一段时间都没有新鲜事物,无论是产品还是创业公司,都鲜有新鲜面孔。

直到十多年前云计算诞生,一些新厂商投身网络领域搞自研,这个领域才有了新景象。云网络开始扮演越来越重要的角色。

1.png

在今年尤为明显。年初,新冠疫情爆发,国家按下“新基建”的快进键。

云计算作为新基建的核心环节,是互联网、大数据、人工智能等新技术的关键底座。云网络,作为云计算的标配,则是新基建的底座。

中国的云网络担得起吗?

缘起:网络高速来了“调度员”

故事还得从阿里云的成立说起。

2009年春节后,一群阿里云的年轻人在北京上地汇众大厦一间快要废弃的办公室里,写下了阿里云计算操作系统“飞天”的第一行代码,开启了中国云计算的新篇章。

一年半后,阿里云发布了第一个商业化的产品-云服务器ECS,逐步迈向公共云服务。

原CSDN与《程序员》杂志总编刘江曾在《阿里云观察——阿里云总裁王坚专访》一文中写道:ECS的上线,让许多得风气之先的中小开发公司兴奋不已。之前他们可以选择的后端,要么是国内IDC服务器托管,运维压力如山大;要么是国外的云服务,又不得不忍受网络的龟速。

阿里云的ECS让他们看到了国产云的希望。但在此之前,阿里云自己先要解决好网速问题。

2010年,阿里云用x86服务器搭载软件的方式,开发出第一款云网络产品——负载均衡SLB(Server Load Balancer),对网络流量(网络上传输的数据量)进行均衡分发。

SLB就像网络高速的“调度员”,为了提高信息传输效率,SLB可以分配和调度“车辆”(比特)从不同的路径和出口进行传输。当大量的数据流量来袭时,有了SLB,网络就不容易产生拥堵。

设想很美好,但早期的SLB性能并不稳定。早期,工程师们将精力主要放在了技术研发上,开发出软件,先让云平台运行起来;缺乏对外服务经验,出现了不少服务质量问题。

这导致看工单、接工单、处理工单,以及频繁出席赔情道歉会,成了SLB第一任产品经理李肆的工作日常。

他记忆最深刻的一次道歉会是阿里云创始人王坚亲自主持下进行的,那是个周六,在西湖国际——阿里云在杭州最初的办公室里,知名开发者社区“博客园”等客户出席。

后来,王坚让阿里云的同事把“博客园”中记录阿里云产品问题的100多篇博客印成书,取名为《进步集》,要求阿里云的工程师们通读。

2.png

内有《进步集》的鞭策,外部有“云计算究竟能不能把网络这件事做好”的质疑。顶着巨大的压力,SLB团队不断地提升其服务稳定性。

一封邮件引发的“修路”革命

但留给阿里云自我革新的时间不多了。

从2012年底开始,微软、亚马逊、IBM等国际巨头陆续登陆中国,云计算市场俨然已呈红海状态。

与此同时,阿里云内部的“技术隐患”开始浮现。

2012年底的阿里云技术规划会上,有人指出了阿里云的潜藏危机:

随着虚拟化技术的不断发展,一台物理机可以虚拟出的虚拟机比例将从1:10提升到1:30、1:50,也就是1000台物理机虚拟出的虚拟机数量将从1万台变成3万台、5万台。

虚拟比上升,网络中用于记录虚拟机地址的ARP表上的数据,也会变为原来的3到5倍。如果存放ARP表数据的交换机供应不足,虚拟机的迁移就会受到限制。

一旦虚拟机宕机,用户/客户业务受影响,阿里云的口碑将遭遇“滑铁卢”,最终导致阿里云面临无法售卖ECS的危机。而ECS是阿里云安身立命的根本。这是一个由云计算发展导致的连锁变化。

与此同时,随着虚拟化网络的规模扩大,ARP欺骗、广播风暴、主机扫描等多个问题会越来越严重,这都会对网络安全造成威胁。

有人将这些隐患写进邮件,发送给高层。江鹤(阿里云网络产品线现任负责人)遂被指派去调研这些问题,并找出解决方案。

2013年年初,江鹤就带着四位工程师接手这个任务,展开调查。

果不其然,当他们将诉求转给“头牌”交换机供应商思科时,对方的答复是:无法提供能够存储如此大规格ARP表的交换机。思科是当时全球最大的网络设备厂商。这意味着,他们在全世界范围内也买不到想要的交换机了。

一番考量后,江鹤决定另辟蹊径,在地面高速公路上方修建一条“云高速”,并在“云高速”上开辟不同的“隧道”。

3.png

他的技术方案是:在底层网络互联互通的基础上,加上隧道技术,构建一个虚拟网络(VPC)。

假设原来的信息传输方式是所有信息通过一条高速公路进行传输,用户间主要通过隔离带隔离。VPC则是在云高速上开辟出不同的隧道,让不同的用户拥有自己独立的隧道,再将带有唯一隧道ID标识的数据包送到物理网络上进行传输,这样做,会使数据传输更安全。

VPC的构想,需要AVS(虚拟交换机)、SDN控制器、网关(Gateway)三部分共同发挥作用。其中,AVS用来连接ECS与ECS,网关用来连接VPC和外部的网络,SDN控制器告诉AVS和网关如何发送数据包。

但关于这个技术方案,内部有不同的声音。不少人倾向于借力硬件厂商,用专用的硬件设备(如交换机)构建虚拟网络(VPC),更注重性能、稳定性。江鹤的方案则是用通用的x86服务器搭载软件的方式构建虚拟网络(VPC),更注重灵活管理和控制网络。

双方意见僵持不下,谁也无法说服谁,最终高层拍板,两条路线同步进行。

这头,借力硬件厂商的方案小批量引入试点;那头,2013年5月开始,江鹤带着一群决定自研的“修路工程师”意气风发地上路了。

网络空间有了“高速公路”

VPC还在艰难的孕育中,IBM、SAP、AWS等国外云服务厂商先后进入中国市场,开疆拓土;本土厂商也纷纷涌入云计算领域,腾讯宣布开放腾讯云,百度正式将面向开发者提供的服务命名为“百度开放云”,中国电信天翼云正式对用户和开发者提供开放服务,青云公有云平台正式上线。公有云市场一下变得“热闹”起来。要想在竞争中取胜,阿里云必须将产品打磨的足够好。

鏖战10个月,江鹤团队交出了他们的作品——由虚拟交换机(AVS)、SDN控制器、XGW网关构建而成的VPC。

他们将原本存储在交换机上的ECS网络信息存到了XGW网关上,对交换机屏蔽掉了租户ECS网络信息,由自研网关负责租户网络信息和租户业务的网络转发,交换机只用负责物理设备之间的网络转发。

单个XGW网关的线速可达40G,传统网关线速只有20G。因为既不像服务器也不像网络设备,网络处理能力却超强,XGW网关被人们称为“怪胎”。

这个“怪胎”不仅从根源上降低了虚拟化技术对交换机的需求,解决了阿里云此前遇到的交换机难题,还能集群部署。单机房内,XGW可以将32台服务器组合起来,网络流量转发能力可达1.28T。1个T是什么概念?如果我们每个人以10M带宽全速下载一部电影,1个T意味着10万人同时从一个服务器下载一部电影。

4.png

XGW网关一出马,江鹤团队毫无悬念地赢得了接下来的机会。

2013年、2014年,阿里云陆续拿下两个重量级订单——“云上贵州”、“海淀政务云”,打响了“决战VPC战役”。2014年2、3月份,阿里云抽调各路人马,组建了VPC联合项目实验室。9月,VPC产品正式发布。

VPC为租户在公共云中构建出了一个隔离的网络环境,租户购买的ECS、负载均衡器SLB、云数据库RDS、缓存OCS等云产品部署在这个隔离的网络环境中。租户可以自行购买计算、存储等一系列资源,完全掌控自己的虚拟网络,包括选择自有 IP 地址范围、划分网段、配置路由表和网关等。

海淀政务云、云上贵州、中石化等客户率先应用阿里云的VPC与专线服务,支撑了相关服务的运行。比如,南京的客户不再需要拉物理专线到杭州,只需加入南京本地的接入点就可以与阿里云构建混合云,成本和效率优势显著。

工程师们新修的这条“云高速”,终于可以让客户畅通无阻、安全高效地通行。

小规模的尝试成功后,2014年年底至2016年,阿里云的工程师们将阿里云上的100多款云产品和百万客户全部平稳迁移至VPC网络。

2016年4月,在云栖大会·深圳峰会上,阿里云对外宣布,云上所有用户都可以自主管理网络产品,“云产品进入VPC 时代”。

“连成一张网”

随着云计算服务能力的不断完善,企业上云需求愈加强烈,由此导致的复杂场景也不断对阿里云的网络技术提出新需求。

2016年,阿里云为应对大型企业数据处理和接入能力的瓶颈,推出了混合云方案。

这种模式下,企业的云被分为公有云和私有云,公有云承载前端服务,私有云承载企业内部的一些服务需求和数据。一些在多地部署了业务系统的企业,则诞生了内网通信的需求。

基于这些需求,阿里云先后推出NAT网关、高速通道+VPC、云企业网CEN等产品,帮助客户将云上云下的网络“连成一张网”。

5.png

2017年双11,阿里云首次采用“高速通道+VPC”的方案,搭建了全球最大的混合云架构。商品浏览、订单支付、客户服务、物流查询等等,很多系统调用频繁在公共云和企业自己的数据中心之间进行。

支撑双11大促后,他们将这个方案介绍给了客户。但现实总是有各种意外。一家知名在线教育公司在使用了同样的解决方案后抱怨——网络配置太复杂了,CCIE(互联网络专家)都不知道该怎么管理。

收到反馈后,产品团队开始想办法让业务组网变得更简单。后来推出的云企业网CEN,让“点点鼠标”就开通全球网络成为可能。

云企业网CEN推出一年后,AWS才做出了对标产品TGW。

从被云计算推着进行网络变革,到引领行业,阿里云网络的发展与这家公司的初心紧密相关。

作为一家输出技术的公司,阿里云一直强调要做到和客户在同一架“飞机”上。自2013年起,天猫双11就开始借助阿里云的计算资源来支持零点高峰。云的弹性资源优势使得双11的IT投入成本下降超过50%,但当时这架“专机”是专为双11定制打造的,外部客户买不到。

为了和客户在同一架“飞机”上,阿里云陆续对外统一开放这些技术能力,近些年更是将沉淀十年的云原生实践形成解决方案,提供给客户。

云企业网CEN也是其中的代表性产品,是承载在阿里云提供的高性能、低延迟的私有全球网络上的一张安全网络。

2019年3月,阿里云智能总裁张建锋宣布:未来一到两年,阿里巴巴集团100%的业务要跑在公共云上,成为“云上的阿里巴巴”。

“双11”驱动的软硬件一体化革命

实际上,这个目标早在一年前甚至更早就已经定下。随着双11核心系统100%上云后,阿里云承载的流量将迎来爆发式增长,虚拟网络流量将达到一个天文数字,近ECS侧虚拟交换机以及虚拟网关将是网络流量的“重战区”,技术上需早做准备。

在转发层面,到2019年双11,上云流量将增长近10倍,整个云上云下的网络通讯带宽将达到数十T的水位。在管控层面,需要同时支持5万台物理机并下发表项,对交换机提出了极大挑战。“以前是单实例、单用户,现在的需求是几十倍甚至上百倍的增加。”

在这样的流量压力下,单纯靠x86服务器+软件的方案是行不通的。通过堆叠服务器的方式,无论功耗还是成本,都将是难以承受之重。如此大的流量带宽,可能需要上千台服务器,单点服务器的稳定性等也将遭遇巨大挑战。

2018年4月,“阿里云网络2.0战役”打响。这一次,阿里云的网络工程师们决定对原有网络架构进行软硬件一体化改造。

软件硬件化和硬件软件化一直是IT行业的热门话题。这其中涉及平衡的艺术。

计算机指令集CISC和RISC就纠葛了几十年。

RISC想让硬件做最简单、最基本的指令,其他的交给软件;CISC想将更多的甚至复杂的功能由硬件来实现;如今,这两个指令集开始相互借鉴。

阿里云网络团队首先要做的一件事是,对VPC进行软硬件一体化改造,支撑“双11”。已经成为阿里云网络负责人的江鹤立下目标:将网关性能提升20倍,交换机性能提升5倍。

但对于做硬件这件事,内部也有一些质疑的声音,主要集中在“为什么放着现成的x86不用,折腾交换机和可编程器件,自己跟自己过不去?”

工程师渔滨在网络行业摸爬滚打了20多年,交换机和可编程器件是他的拿手好戏,自研网关和交换机的重任落在了他的团队身上。

要打仗,先招人,但渔滨要的是行业经验十年以上的老兵,花了半年时间,他终于组齐了队伍。

彼时,没人能想到,网关和交换机这两座网络大闸将会用怎样的姿态迎接双11的流量洪峰。

直到2019年双11,渔滨团队研发的“高性能硬件网关”承载了10T级别的流量,稳定保障了阿里经济体100%核心系统上云。

6.png

图:阿里云网络团队支撑双11合影

“高性能硬件网关”由CPU+可编程交换芯片组成,原本由CPU承担的网络转发任务交给可编程芯片完成,CPU专注于业务处理。原来,一台服务器线速最多可达80G,“高性能硬件网关”的线速可达3.2T。

这一技术创新,不仅让阿里云完成了极限挑战,更让阿里云上的客户享受到了技术的红利。当国内一个顶级资讯平台提出12T的高带宽需求时,阿里云在一周内就满足了它的需求。

在渔滨团队为了双11奋战的同时,其他团队也没闲着。

2018年下半年,江鹤随业务团队去东南亚拜访客户,在印尼见了当地一个TOP级电商客户。

对方尖锐发问:我们的大促跟天猫双11一样火,阿里云能不能支持?

大促要求短期内支撑较大数量的网络流量。过去,为了避免浪费,在业务量有限的情况下,阿里云海外数据中心只配备了有限的资源,要满足客户这个需求,需要现买服务器等资源,扩容周期长(供应周期以月为单位)。

客户的质疑直指阿里云网络产品弹性不足,极大刺激了江鹤的神经。

拜访回来后,江鹤下令,业务网元要放弃基于x86服务器构建,转向阿里云核心的弹性计算产品ECS构建,ECS是阿里云储备最多的资源,基于它开发的产品将能够提供“无限弹性”;建立一个管控平台,屏蔽SLB、NAT、VPN等业务网元对底层资源的可见性,由管控平台统一对接各种业务需求,按需配置资源。

2019年10月,新管控平台正式对外亮相。11月,阿里云花了一天时间就帮A客户完成了近百G流量迁移。

“自动驾驶系统”

至今,阿里云网络已走过十个年头,运行在阿里云网络上的云产品已经多达上百种,并且数量还在不断增加。

但物理规律决定了没有100%可靠的网络,故障无法避免,但必须做到在故障发生时快速定位问题、解决问题。

百万级网络设备、上千个网络指标,网络管理越来越有挑战性。

同时,AI、5G、边缘计算等新一代信息技术不断迸发,可以预见,基于这些技术演化生成的信息基础设施领域将会迸发出大量新兴应用。这也意味着,阿里云网络将要同时连接各种终端、个人、企业,为“万物互联”提供技术支撑。

这将是一个什么样的世界,无人能够预测,但新世界正在到来。

应对未来,阿里云的网络工程师们也储备了创新技术——一个智能运维平台。

它好比一个自动驾驶系统,能够诊断网络中的问题,了解网络上的运行状况,以及规划网络中的发展方向,已经帮助阿里云支撑了多届双11。

每年双11前,这个平台都会做出预测:双11当天某个地方的集群可能承受多少峰值流量、每条跨城线路预计会分摊多少流量、需要多少服务器来顶住压力,为双11作战计划提供数据支撑。

今年天猫双11,流量洪峰在0点0分26秒出现,在阿里云网络的支撑下,58.3万人在这一秒中成功下单。

如今,这个平台还在不断开发与完善中。未来,也将开放给阿里云的客户使用,摊薄科技创新的成本。

目前,全球有300多万家企业跑在阿里云上,云网络覆盖率达95%,囊括了在线教育、金融、零售、制造业等多个行业。具备超强灵活性和超高弹性的云网络,不仅帮助企业提升了效率,还帮助企业降低了30%的运营成本。

7.png

阿里云网络的工程师们希望,通过这个平台,帮助企业更加智能地运维自己的网络、更加便捷地配置自己的网络,让上云的企业在“云高速”中实现“自动驾驶”。

他们说,把路修的更好,让网络更简单,就是自己的使命。而依靠自研进行创新,是发展的根本力量。

常言道,“道路通,百业兴。”

1988年,改革开放,我国第一条高速公路——沪嘉高速公路全线通车。

2008年,全球爆发金融危机,为应对冲击,“四万亿”出笼,重点投资在了“铁公基”(铁路公路基础设施建设)领域。截至2017年底,我国高速公路通车里程13.6万公里,位列世界第一。中国也跃居世界经济增长第一引擎。

今年年初,新冠疫情爆发后,国家按下“新基建”的快进键。只是这一次,更要紧的是云上信息高速公路,建设主力成了科技公司们。

相关文章
|
自动驾驶 测试技术
|
机器学习/深度学习 人工智能 监控
开车太刺眼?华为超微光解决难题
每天回家我都要经过差不多20多个路口,而每个路口都有至少一个非常非常亮的射灯,灯光的刺眼程度不亚于肉眼直视太阳。
213 0
开车太刺眼?华为超微光解决难题
|
云安全 运维 安全
万物生,春雷响,云分期百万补贴助力企业复苏
企业如何实现数字化转型,完成业务的线上化升级,是后疫情时代每一家企业必须思考的问题。
840 0
万物生,春雷响,云分期百万补贴助力企业复苏
|
缓存 运维 算法
早早将渲染迁上阿里云,《流浪地球》视效公司率先顺利复工
去年起,MORE VFX就和阿里云达成了云的各方面合作。算力需求最大的渲染环节迈出了上云的第一步。
1734 0
|
机器人
今日科技联播:姆巴佩独造三球一战成名,阿里云打破世界杯流量纪录
昨晚的八进一世界杯不知道大家是不是又赔了钱,说好的早睡早起,又偷偷为世界杯熬了夜,全方位的人工智能剪辑技术,观赏体验简直不能更棒了!好了,说完了世界杯,接下来跟着小编看看今天的科技资讯吧!
1268 0