2022中国算力大会丨阿里云祝顺民:智能云网络,助力算网架构新探索

本文涉及的产品
私网连接 PrivateLink,5万GB流量 1.5万小时实例时长
传统型负载均衡 CLB,每月750个小时 15LCU
全球加速 GA,每月750个小时 15CU
简介: 近日,由工业和信息化部与山东省人民政府共同主办的“2022中国算力大会”在济南举办。山东省委书记、省人大常委会主任李干杰,工业和信息化部党组成员、副部长张云明出席开幕式并致辞。阿里巴巴集团研究员、阿里云云网络产品线总经理&达摩院XG实验室负责人祝顺民在《新型算力网络,赋能东数西算》专题论坛发表演讲。

祝顺民表示,东数西算作为国家战略,实现大范围的算力调度需要更高效的网络。国家在《“十四五”数字经济发展规划》中明确提出:“优化升级数字基础设施:加快实施‘东数西算’工程,推进云网协同发展,提升数据中心跨网络、跨地域数据交互能力,加强面向特定场景的边缘计算能力,强化算力统筹和智能调度”等要求。落实东数西算,需要推进云网协同和算力网络建设,而算力网络本质是解决全局算力资源接入和调度的问题,根据业务需求,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。因此,应对算力的泛在化、多样化、服务化,网络调度需要更加弹性、更加敏捷、更加智能。

image.png

算力网络首先要解决的是全网算力资源和应用的连接问题。将现有的网络基础设施和新型算力网络进行统一融合,实现一网接入各级算力资源。这对网络提出了两点新的诉求:一是需要网络无处不达,提供从中线到边缘以及更多的全场景的接入能力让算力资源可以便捷接入;二是需要提供一致的网络体验、一致的管理能力,覆盖从接入网络到跨地域互联网络再到云上网络,从而保障应用连接一致的丝滑体验。

image.png

算力网络也要解决算力资源和算力需求不均衡的问题。现有的算力主要由中心算力枢纽、边缘算力集群和其他算力节点组成,算力的分布从架构、地域上存在一定的不均衡性。因此,需要算力网络提供跨域弹性调度的能力,连接云/本地-边-端多级算力池,并能够快速进行跨域扩展。另一方面,算力网络还要具备带宽的弹性扩展能力,来承载多种算力应用场景的宽带宽需求,例如SLA的高可靠性、规模的伸缩性、时段的高峰性等。

image.png

正如王坚博士所说,我们正处在一个最好的时代,一个从电力的时代到算力的时代。从经济的角度来看,我们从用电力衡量一个国家、地区经济发展的能力阶段,到了今天用算力来衡量一个地方的经济发展,这是一个巨大时代的转变,从工业经济到数字经济,实际就是从电力经济到算力经济。算力的服务化就是要让算力像水、电资源一样随取随用,使算力服务成为一种公共服务。那么,基于云原生构建的网络正好可以满足随需随用的需求,打破交付速度的瓶颈,提升流量的弹性伸缩能力,实现灵活的算力调度。并且,云原生网络可以更好适应企业数据中心基础设施管理、跨云多集群有着互联互通以及边缘高性能轻量化等场景。

image.png

在新型的算力网络架构中,网络具备着核心价值——连接、贯通和输送。就如西气东输和南水北调工程,资源的大规模远距离的高效输送是核心难题,因此,如何让算力资源可以高效的使用起来,网络的智能化调度和管理是必不可少的。根据业务的属性和分布地区等特点,智能调度可以覆盖云-边-端三级算力,兼顾区域发展和网络时延,实现算力资源最优配置,起到因地制宜的作用。例如,温冷产业向西部迁移,这就需要西部地区的算力枢纽与京津冀算力枢纽跨地域长距离的网络覆盖连接,其后台加工、离线分析、存储备份等这类非实时算力需求对时延性没有过高的要求。而像工业互联网、金融证券、灾害预警、移动医疗等时效性要求较高的业务需要网络具备低延时高可靠的属性。除了智能的网络调度,智能化的网络管理智能管理可以讲算力量化,通过构建全局算力网络地图,将算力更便捷的进行数据采集、统计分析,算力交易等。


image.png

洛神云网络是阿里云飞天云操作系统核心组件。可以说,飞天洛神云网络的发展和未来方向,与算力网络的愿景不谋而合。算力网络从底层的算力资源池出发,进行算力标准化和算力抽象;通过应用感知的算力调度来进行统一算力服务,来支撑顶层的算力交易平台服务行业应用。对应到洛神云网络的技术架构,最底层的完整覆盖应用-云-边-端一体的算力网络产品。在之上的云企业网的全球化智能云网调度,通过深度融合应用的云网络产品能力,已经支撑了公共服务、行业创新、科研教育等客户服务。其中,任意规模的分钟级全网链路监测可以实时监测算力节点在网情况,刷新全网算力资源地图;毫秒级虚拟网络拓扑查询可以快速排除算网故障,提高算力在网时间和使用效率。可以说,阿里云飞天洛神云网络,是算力网络架构的有力探索。

image.png

截止目前,阿里云飞天洛神云网络已服务全球 400万+客户,覆盖政府、能源、交通、电力、金融、互联网等各行各业,其中80%为中国科技企业。例如,北京冬奥会就通过阿里云洛神云网络向全球转播,以全程4K的超高清模式,带来6000小时的精彩内容,为全球近100家奥运授权转播的媒体服务,保障全球27亿人的观看体验;国家电网基于VPC和SLB等技术的弹性云网络,护航国网云,助力国家电网核心业务可靠运行;助力BASF推行Cloud Native 战略,打造一张全部基于云的IT新架构等。

image.png

多年来,飞天洛神云网络致力于引领中国云网络产业发展,深耕云网络技术,繁荣云网络生态。在2021世界权威机构Gartner云网络领域产品能力评估中,阿里云飞天洛神云力压世界竞对,荣获全球第一,阿里云应用型负载均衡更是唯一获得满分的产品。在学术方面,阿里云大会规模云网络技术平台获得计算机学会技术发明一等奖,多篇洛神入选SIGCOMM顶会,并出版了业内首本云网络图书,云网络公网计算白皮书等。

image.png

最后,祝顺民表示:未来,算力和应用应该具备无感知网络。用户侧可以一点接入,随用随取;算力资源侧可以一网接入,“并网”计算。通过构建算力一张网,打破地域位置、规模、弹性等限制,将多级算力资源池进行智能调度,满足多样化算力需求,保障算力高效使用。



相关文章
|
24天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
665 243
|
20天前
|
NoSQL 关系型数据库 MySQL
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
134 56
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
|
17天前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
55 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
2天前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
8天前
|
运维 供应链 安全
阿里云先知安全沙龙(武汉站) - 网络空间安全中的红蓝对抗实践
网络空间安全中的红蓝对抗场景通过模拟真实的攻防演练,帮助国家关键基础设施单位提升安全水平。具体案例包括快递单位、航空公司、一线城市及智能汽车品牌等,在演练中发现潜在攻击路径,有效识别和防范风险,确保系统稳定运行。演练涵盖情报收集、无差别攻击、针对性打击、稳固据点、横向渗透和控制目标等关键步骤,全面提升防护能力。
|
3天前
|
负载均衡 容灾 Cloud Native
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
35 4
|
10天前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
|
1月前
|
机器学习/深度学习 资源调度 算法
图卷积网络入门:数学基础与架构设计
本文系统地阐述了图卷积网络的架构原理。通过简化数学表述并聚焦于矩阵运算的核心概念,详细解析了GCN的工作机制。
90 3
图卷积网络入门:数学基础与架构设计
|
27天前
|
云安全 人工智能 安全
|
19天前
|
弹性计算 Cloud Native Serverless
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品。