【阅读原文】戳:阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第9代ECS企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
以下内容为专场精华部分:
图丨阿里云弹性计算产品线、存储产品线产品负责人 Alex Chen
全新产品家族发布
普惠计算服务,助力企业创新
阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)在演讲中介绍了阿里云弹性计算全新发布的产品家族,包括通用计算、加速计算、容器计算3种算力形态,同时介绍了包括面向开发者和小微企业的入门级实例、企业级通用实例、存储优化实例、HPC优化实例等。
Alex Chen在演讲中提到,阿里云弹性计算已经帮助超500万客户成功实现上云。面对各行业不同应用场景及算力需求,阿里云弹性计算通过强大的性能和灵活性,推动各行业的数字化转型。为包括微博、好未来、莉莉丝、易点天下、小红书、东方物探、望石智慧、元戎启行、巴黎奥运会、月之暗面、海艺AI等客户解决实际业务问题,应用场景覆盖视频直播、游戏研发、广告投放、石油勘探、药物研发、自动驾驶、人工智能等。在不断提升自身产品力的同时,阿里云弹性计算也持续优化客户体验,致力于让客户用云更简单。
图丨阿里云弹性计算高级产品专家 姬少晨
系列产品发布升级
性能、稳定性、用户体验持续优化
阿里云弹性计算高级产品专家姬少晨发布了阿里云弹性计算第9代企业级实例(g9i&g9a)。
本次发布的九代实例(g9i)搭载了英特尔®至强®6 处理器P-Core,是Intel即将发布的全新一代企业级处理器,算力进一步提升。内存由8通道升级至12通道,内存频率也从5600MT/s升级至6400MT/s,整机内存带宽相比上一代提升70%,L3缓存提升50%,大幅提升数据吞吐场景性能。在IO能力上,网络连接数提升2倍,eRDMA延时降低到8微秒,整机IOPS提升20%。
而基于AMD处理器的第9代ECS实例,在阿里云ECS上已经演进了三代,每一次的迭代演进,都带来了巨大的性价比提升。最新发布的g9a实例产品,将会搭载阿里云最新CIPU架构和AMD最新Turin平台处理器,从IO吞吐到算力性能全面提升。
相比第8代AMD g8a实例,g9a的算力性能提升20%以上,网络与存储带宽提升50%,内存带宽提升35%。在搜推广场景中,分布式训练性能预计提升30%,大数据性能提升20%,通用的企业级应用,例如查服性能提升20%。
如果说g9i专注在性能、安全、稳定等关键技术维度,那g9a则持续将性价比作为关键优势,并重点面向搜推广、大数据等业务场景。姬少晨表示:阿里云也将不断深耕技术、持续进行产品创新,在高速发展的AI时代,为客户提供更加稳定、强大、安全、弹性的计算服务。
图丨阿里云弹性计算资深技术专家 杨航
阿里云弹性计算资深技术专家杨航对CIPU 2.0做了深度的技术解读,他提到CIPU 2.0聚焦“弹性、安全、稳定、性能、成本”这五个云计算核心业务价值,是真正地"应云而生"。
• 弹性:ECS虚拟机和PaaS安全容器计算资源并池。
• 安全:CIPU全方位构建data in use,data in motion和data at rest,保障数据全生命周期安全底线。
• 稳定:CIPU针对数据E2E RAS以及云数据平面可运维提供关键能力支撑。
• 成本:CPU每HT成本、IO虚拟化成本、CIPU架构相对于KVM架构下降约10%。
杨航也分享了CIPU 2.0如何进一步提升ECS的稳定、安全和性能竞争力:
• CIPU 2.0显著降低了芯片失效率,使得ECS数据平面稳定性提升20%。
• CIPU 2.0全方位提升了云上数据全生命周期安全水位,通过统一TPM可信根增强、VPC E2E加密、EBS E2E加密等技术,实现data in use, data at rest, data in motion,保障数据全生命周期安全。
• CIPU 2.0基础带宽提升2倍至400Gbps,VPC网络性能由4000W pps升级至6000W pps,弹性RDMA也由3000W message/s升级至5000W message/s,使得ECS的存储和网络性能方面显著提升。
• CIPU 2.0进一步聚焦数据密集型业务需求,DFS和CPFS的读+写达到800Gbps能力,满足大数据和AI等数据密集型业务对于云上分布式数据存储高性能业务需求;弹性RDMA的RX+TX 800Gbps能力,使得在跨psw/dsw等更大规模组网条件下,根本上解决物理交换机ECMP hash极化导致的带宽利用率低下问题,物理网络带宽利用率达到98%。
图丨阿里云弹性高性能计算(E-HPC)产品负责人 黄泽辉
阿里云弹性高性能计算(E-HPC)产品负责人黄泽辉介绍了E-HPC产品如何基于云计算的技术和规模优势,以弹性按需的基础设施,重新定义传统的“超级计算机”,实现从集群到计算服务的模式转变,帮助客户敏捷、灵活、普惠地使用HPC,加速科学研究和业务创新活动。
黄泽辉发布了专为HPC应用设计优化的实例产品hpc8ae和hpc8i,以及E-HPC托管版集群、E-HPC Instant计算服务等最新集群产品和功能特性。
针对内存带宽优化的hpc8ae,能够针对流体动力学(CFD)、有限元等应用进行优化。hpc8ae采用了第四代AMD EPYC处理器,最高3.75GHz主频,500GB/s内存带宽。而面向计算和网络维度优化的最新hpc8i实例,则是针对计算密集的应用,如隐式有限元分析、分子动力学和计算化学等场景进行优化。hpc8i实例采用最新的Intel Xeon(Emerald Rapids)处理器,全核睿频3.6Ghz,支持Intel丰富的软件工具生态系统,如Intel数学库和高级矢量扩展(AVX-512)。
对比传统线下HPC环境,阿里云E-HPC有着高性价比、灵活敏捷、可扩展至超大规模、按需弹性资源调用等优势,能够满足客户对HPC应用的多样化需求。
图丨阿里云弹性计算高级技术专家 贺荣徽
阿里云弹性计算高级技术专家贺荣徽分享了如何通过技术和架构创新,实现普惠高性能的云上HPC服务。重点介绍了E-HPC在性能、成本和规模上的技术创新及不同场景下的端到端解决方案。
贺荣徽介绍了E-HPC产品设计的三个层面:最底层资源层,包括计算、存储、调度管理资源。三者整体组成一套集群网络,包括通用VPC网络和高性能eRDMA网络;中间服务层,基于HPC应用特点提供集群资源管理、应用管理等一系列服务化功能;最上层则根据业务特点提供了给IT运维角色使用的控制台、前后可视化处理的HPC portal、给第三方开发者使用的open API。
图丨北京望石智慧科技有限公司首席架构师 王晓满
北京望石智慧科技有限公司首席架构师王晓满也受邀来到现场,该公司成立于2018年,是一家致力于用人工智能驱动新药研发的科技公司。王晓满分享了新药研发场景中的算力需求痛点:每一步任务需要调度的资源压力与成本巨大,调度方式还需瞬时且智能化。
为解决以上问题,望石智慧采用阿里云弹性高性能计算E-HPC产品的调度资源将实例拉开,自动启动算子,关联数仓表,快速完成整体数据流程。同时E-HPC可满足任意时刻高吞吐量的计算峰值需求,将计算成本降到原固定资源方案的1/3,整个计算集群的管理成本只有原来的10%,实现了新药研发效率和成本效益的双提升。
图丨阿里云弹性计算产品专家 庞雄伟
阿里云弹性计算产品专家庞雄伟分享了倚天ECS实例在大数据、视频转码场景的最佳实践。
庞雄伟提到,倚天目前已支持数百款开源软件,助力数千客户业务上云并实现降本增效,商业化规模也已达数百万核。
在大数据场景中,倚天将Spark、Hive、Flink、Elasticsearch分别提升20%、20%、48%、30%。在视频场景下客户的直播、点播业务也有着80%的性价比提升。
图丨阿里云弹性计算架构师 张先国
阿里云弹性计算架构师张先国则从技术Deep dive的角度,介绍了倚天的底层技术方案和倚天在AI、视频、大数据场景中的应用效果。并按照从易到难,介绍了三种部署倚天的方案和具体实现路径:
• 方案一:倚天云产品,高性能,低成本,快速迁移。在数据库层面,RDS、PolarDB、ADB等产品已经有了倚天版的数据库,成本更低,性能更好。
• 方案二:采用ECS 扩展程序一键部署、性能加速。在创建实例时可选择倚天、勾选Linux操作系统,选择多个应用加速,系统会自动安装所有ARM版软件,性能提升10%-20%。
• 方案三:自带软件构建和适配ARM平台。客户如有自己的软件版本,则需从控制台创建倚天实例,选择阿里云linux 3 ARM版操作系统,推荐用自带操作系统的编译器,也可自行升级编辑。
图丨阿里云高级技术专家 王卓
阿里云编译器团队高级技术专家王卓介绍了倚天实例全栈场景优化效果、龙蜥社区发展现状、基础软件版本选择等内容。
他着重提到了龙蜥引进了ARM生态进行共建共创,还做到了软硬一体优化,符合行业开源治理合规诉求。Alibaba Cloud Linux 3目前也已经高度适配了倚天ECS,相对CentOS 9也有着显著的性能提升,还在分享中介绍了几项具体优化方法,比如内核中的64K大页,PGO优化,Alibaba Dragonwell中的对象头压缩特性,以及CoreBolt优化工具等。最后介绍了倚天性能优化镜像以及基于 ECS 扩展程序的开箱即用的优化方案,云上客户可以选择这些方案方便地获得性能收益。
牵头制定国内首个云超算国家标准
阿里云E-HPC 通过首批标准符合性测评
图丨中国电子技术标准化研究院云计算标准负责人 陈行
专场还邀请到中国电子技术标准化研究院云计算标准负责人陈行莅临现场,发表题为《云超算与标准化》的主题演讲。陈行强调了云计算在“基础设施、融合应用、技术创新、国际合作”方面的重要意义,并指出云超算将是新一轮科技革命和产业变革的创新驱动力量。
陈行提到,在云超算快速发展的背景下,中国电子技术标准化研究院联合阿里云作为牵头单位,制定了”国内首个云超算国家标准“。标准明确了云超算服务涉及的基础资源、资源管理、运行调度等方面的技术要求,为云超算服务和产品的设计、实现、应用和选型提供了有效指导。阿里云弹性高性能计算(E-HPC)也成为首批通过云超算国家标准符合性测评的产品。
以上就是本次【通用计算专场:新品发布与行业实践】的精华内容,同时点击阅读原文可回看本场session完整内容。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~