容器服务:智算时代云原生操作系统及月之暗面Kimi、深势科技实践分享

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 容器技术已经发展成为云计算操作系统的关键组成部分,向下高效调度多样化异构算力,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务在2024年巴黎奥运会中提供了稳定高效的云上支持,实现了子弹时间特效等创新应用。此外,容器技术还带来了弹性、普惠的计算能力升级,如每分钟创建1万Pod和秒级CPU资源热变配,以及针对大数据与AI应用的弹性临时盘和跨可用区云盘等高性能存储解决方案。智能运维方面,推出了即时弹性节点池、智能应用弹性策略和可信赖集群托管运维等功能,进一步简化了集群管理和优化了资源利用率。

一、容器技术实践发展

目前容器技术已经成为了云计算操作系统,向下高效调度多样化异构算力评比基础设施差异,向上提供统一编程接口,支持多样化工作负载。团队已经在云上服务了数万企业客户和众多开发者。帮助众多企业实现了互联网架构升级。在帮助更多企业客户来实现智能化和数字化专心。可观察像自动驾驶以及大模型等一系列创新应用运行在主体平台之上。


2024年巴黎奥运会是阿里云承载一次云上奥运盛会在背后阿里云容器服务支持了大量赛制系统,在云上以高效稳定在运行对个人来讲,就子弹时间特效是最难忘时刻,因为捕捉了运动瞬间之美,全景方式展现了力量和美结合。在过程之中,在赛场上通过多个视角来去采集,视频,同时将数据传递到云端来实现实时空间建模和3D渲染。在过程中,实现秒级处理完毕和直播融合,让观看体育赛事成为了新视觉体验。同时向赛事官网基于整体阿里云容器服务。在全球包括法兰克福等多个地域进行进行部署来给全球客户提供稳定高效访问能力。视频云关键技术设施都是运行在阿里云容器基础设施平台,比如像AcK来支持了向全球观众视频转播。全球著名分析机构Garner发布了容器管理模拟象限。阿里云蝉联全球领导者,亚洲唯一。

1.新算力-弹性、普惠容器能力

(1)ACS容器算力重磅升级

首先将分享弹性普惠容器计算新算力。在已经发布了acs容器算力产品,对ack和 acs设计是科技产品提供统一serviceless容器算力,同时支持通用计算和加速计算。在带来了重磅升级。首先为极致弹性,根据用户应用负载特征,支持预调度,将定型创建速度从每分钟7000pod提升到每分钟1万pod。第二,在行业中首次为serviceless层面带来了动态柔性能力在CPU执行在应用执行过程中, CPU使用量是存在一定波动,cpu峰值预留资源就不可避免带来资源浪费。现在支持秒级CPU资源热变配,轻松解决启动加速包括Vpa等业务场景。普惠应用acs提供更细腻力度三立规格,更加贴合应用,减少资源浪费。同时在业界率先推出了按天节省计划,每天波动潮汐在典型场景实现降本55%


(2)弹性临时盘-为大数据与AI应用增效降本

随着技术成熟,可观察数据密集型应用越来越多加速,向云原生迁移。serviceless微服务不同,工作负载对存储解决方案提出了更大挑战。在大数据和AI场景非常常见领域,对高校临时数据访问,如分布式缓都需要海量IO吞吐能力。在过去只能靠本地来解决,但是本地盘丧失了云盘弹性优势。在此背景之下,弹性容器盘弹性临时盘产生作为新高性能高性价比存储设备,实现本地盘一样超高吞吐性能,同时支持像云盘弹性容量扩容,所以实现兼得,更满足在AI大数据场景很多数据处理需求,pv方式或者数据盘方式发带AC进行使用。在对数据高可用有更加严苛需求客户场景中,数据库,消息队列以及中间件过去为了实现高可用架构,通常要在不同根据不同副本,在应用层实现数据同步和复制。灵活但带来挑战,体现在数据一致性保障以及运维复杂度提升。


(3)跨可用区云盘-简化数据高可用架构

基于此阿里云推出跨可用区云盘,能够将数据跨可用区进行存储,有效提升数据可用性,同时降低构建高可应用架构带来复杂度技术出厂公司,auto mq基于跨可用区云盘实现了对消息队列高可用数据存储,利用相关技术保障数据一致性。当可用区出现故障时,在秒级实现故障切换,有效提升业务一致性


2.新机遇-开放、高效智算底座

分享基于容器技术构建高效稳定智算新底座,帮助迎来新时代机遇。


(1)开放Cloud Native AI参考架构

迎接AI时代到来,需要海量算力和对其高效调度和利用。预测超过75%AI应用,将部署在容器环境之上。团队服务了众多国内AI创业公司和阿里云,大量AI产品。呈现出Cloud Native参考架构,致力于推动云原生和AI两个领域系统性融合。云原生原框架包含多个层次在旧设置层,希望容器产品能够高效利用基础设施带来澎湃算力,包括像对GPU细腻度虚拟化,包括对CPfs网络支持以及对灵骏智算集群高效优化充分发挥整体技术设施带来高性能大规模优势。


资源编排和调度层,充分结合AI工作负载和底层资源,进行高效调度,让AI系统具备更性能和更高资源用率进一步提升整体AI弹性与稳定性。同时支撑开放生态系统,具备可扩展框架,允许客户自由选择云原生AI服务开源AI框架,以及来自合作伙伴产品,帮助企业加速自己AI业务创新。


(2)容器智算-GPU可观测性与故障自愈

分享关键能力增强。gpu集群稳定性影响AI任务效率与成本。在meta发布报告中,可观察llma3.1训练方法集群中,大概平均每三小时就把发生一次故障。GPU故障快速发现快速恢复对性能瓶颈快速定位已经成为分布式训练持续挑战。ACK持续在优化对gpu相关可观测性和故障处理能力。GPU监控大盘提供超过40种监控指标,帮更加清晰理解自己系统执行状态。同时,提供了基于EDf轻量化profiling工具,按需开启,切入方式去到现在应用对整体资源应用情况,同时增强了对gpu故障诊断能力,对典型故障场景做到自动发现,自动恢复和对AI任务重新调度,使得整体GPU故障解决效率提升50%。


(3)AI推理弹性加速

大模型性能取决于参数量,但海量参数影响推理服务启动速度该问题通过结合镜像加速套件和数据编排两个技术通过无侵入方式提升模型启动效率通过套件提供加载和应用分发技术,可使得GPU应用镜像启动速度下载时间缩短80%。同时利用Free在kubernetes集群建立相应分布式缓存,通过数据亲和性调度,极大节省网络拉取模型所消耗时延。同时,通过对缓存弹性伸缩,同时满足对吞吐和成本控制需求。进一步通过对模型异步拉取和预手段,进一步去改善大模型启动效率。通过手段,对queen72b模型赛事时间从过去10分钟缩短到不到40秒。通过这两个手段,结合将能启动时间下降85%以上,极大提升了服务响应速度和弹性。


(4)智算、超算、大数据应用云原生一体化

了解业界智算超算大数应用原生一体化已经成为趋势越来越多客户希望基于kubernetes实现对底层资源统一管理来对AI HPC和大数据应用进行统一调度来实现简化运维提升资源利用率目标。发布关于ack支持,帮助客户在ack集群对大数据和AI任务进行更加高效调度,同时具备更弹性,安全和可观测。而所有能力都通过应用目录一键获得.在社区跟一起在推动更多工作负载原生化,更多计算任务标准化,希望和更多互动共建


3.新范型-智能、自动运维优化

分享基于智能化自动化技术优化集群运维和稳定性。

(1)即时弹性-更快、更稳、更易用节点弹性扩容

资源弹性方面,已经发布即时弹性节点池,用来解决资源弹性场景下弹性效率,确定性和应用性问题。继弹性电池有了长足发展产业效率方面,能在集群出现产业算力缺口35秒以内做到节点就绪。通过对底层ecs库存感知,将弹性成功率提升到99.9%。不同于传统方式即时弹性允许客户采用更加灵活方式描述对ecs规格定义,就想8代机型,这时候即时弹性节点池会根据所需算力要求以及库存情况,帮助客户进行自动筛选,提供扩展筛选策略,帮助客户根据自己应用来进行对成本,可用性进行灵活控制。即时弹性电池,帮助客户实现了大规模弹性能力。通过自动筛选ecs规格大大降低运维复杂度,并且保证在海量大批量弹性场景35秒节点就去无性能衰减,可满足业务峰值


(2)智能应用弹性-开启应用弹性“辅助驾驶”

智能应用弹性是客户重要诉求影响弹性难度高,需要对整体应用复杂有高层次理解,并且根据经验对每个应用定制合理弹性规则,随着应用不断变化进行调整,使整体弹性变得更加有效。为此推出弹性策略辅助驾驶,会根据应用容量以及对持续分析去自动为hpa vpa 等提供相应弹性策略自动生成以及优化建议通过方式缩短弹性策略生效时间25%,场景减少20%资源浪费。


(3)可信赖集群托管运维

容器服务优点为稳定性目前持续去构建可信赖集群托管体验。控制面简化用户集群版本升级能力,提供stable不同升级渠道,让用户快速稳定获得自己所需要功能。提供了对API自动化检测,整体升级过程更加平稳,降低了对稳定性影响。

数据面,加强对节点池自制和自愈能力如主动运维事件进行了更结合,当底层出现宕机迁移维动作之前,就会对节点进行排水和应用迁移,进一步降低了对业务中断影响。目标让去更加专注在自己创新突破,而去帮助去解决运维复杂度。


(4)智能运维-AI助手简化集群运维管理

运维复杂度为大众持续关注问题。已发布基于领域大模型和专家系统Ack AI助手,目标成为用户贴身kubernetes专家,通过更加直观方法帮助客户进行提存集群运维和管理。目前进行了一系列增强智能体检, AI助手能够对集群稳定,安全,成本,性能进行全方位体检,及时发现问题给出建议,在异常检出率达到85%

智能诊断方面进一步加强了更新分析和相应修复建议,尤其是在GPU相关场景,在异常诊断更新定位率现在大于70%。同时在安全上做了很多工作,帮助实现更加更加简化安全风险发现,以及对安全治理策略自动化服务生成,可节省安全管理复杂度60%


(5)容器供应链安全能力升级

预测提出2025年有超过45%企业会遭受软件供应链攻击。数字是2021年三倍。面对软件供应链风险,阿里云容器服务提供了完善供应链风险防御机制。在推出支持OCI社区1.1标准,能拿开放生态工具来实现对逻辑镜像AI模型统一管理和数字签名。结合ack提供自动化治理能力,实现通用云原生制品供应链管理。同时加强对整体软件治理清单能力,支持更践行安全左移策略,使得能在早期就发现镜像中所存在风险,并且在全生命周期进行追踪,通过智能化手段,发现在docker file中存在安全风险,并给出修复建议。


深势科技基于容器服务提供安全策略治理能力实现了日均万次容器风险治理和安全审计。


4.新常态-分布式云原生架构设计

分布式云原生架构为新常态客户应用选择布置在公共云边缘,或者是自己数据中心来满足对数据安全合规以及业务连续性不同需求。

分享整体阿里云在分布式云原生产品能力


(1)分布式云原生基础设施

ACK one是在分布式原生重要产品,通过多级舰队实现对多个云上云下边云上多个集群统一应用交付,任务调度,流量管理,可观测性和安全能力ZEEKR汽车利用ACK one,实现云上云下多个集群统一管理,使得整体系统安全和业务联系有了显著提升,降低了25%资源用量运维效率提升80%。


(2)分布式多集群应用交付

ACK one加强在分布式应用交付能力,在支持GOPS方式技术之上,推出集群资源分发,让现有kubernetes工作负载不做修改或很少修改,可部署在快多个集群部署,并且灵活控制灰度发布,提高发布效率和稳定性。


(3)多地域、跨集群任务统一调度

自动驾驶和大模型训练合理场景需要算力,地域算力无法满足诉求。用户诉求为云上云下集群能够更高效统一调度来提升。虽然应用率问题里加强了跨集群统一资源调度,ACK ONE更加高效利用多个地域集群能力,根据资源库存情况,数据进行合理调度选择。地域有gpu资源,但是数据不在此,数据缓存加速来进行预取,提升整体数据处理效率。


(4)跨集群服务网格-分布式应用互联与高可用架构

跨集群服务网格方面ASM增强跨地域,跨集群访问存储能力,帮助客户来实现云上云下高可应用架构提升业务连续性。Asm跨境经营代理有效解决了多机群在网络地址冲突上难题来实现区间互联互通。北京合资利用asm提供跨云快递型网络能力,实现了云上K8s打通。当地域出现故障时,用ASM快速进行流量切换。基于该优化,整体配置生效时间缩短了50%,配置所需功能带宽消耗降低了90%同时在数据面对整体服务网格技术进行了全面升级


(5)服务网格数据面升级-简化、高效

第一,网络团队共同推出了阿里云mesh给位一种新集中式网关,与社区相比性能,吞吐性能提升2.3倍,进一步降低使用meshASM及软件一体优化,对数据面进行了全面优通过相关技术来去优化跨节点之间套分组,实现KPI进行20%同时通过优化在路由协议转发,整体PPI加上10%,同时效率提升200%。


(6)容器服务助力企业数智创新

未来10年容器技术发展前景较所使用云计算和原生技术客户和开发者都是先进生产力代表,必将成为AI时代造风者,而队伍提供坚实原生智算底座助力在云AI时代进行创新和突破

 

二、Kimi LLM调度系统实践

Kimi工程副总裁许欣然进行KIMI相关分享

KIMI智能助手是列表面最主要一款产品。从已经发布了之后,整体用户量一直在快速增长,目前已经是整体市面上最受欢迎智能助手软件,凭借了非常卓越长文本精读,智能遵循能力,还有各种智能搜索等等,收到学生还有专业人士欢迎


1.LLM流量特点

KIMI内部为整体大语言模型重新做了一套调度系统存在质疑:目前用户量,跟传统电商还有社交软件后端相比,数量级存在差距缺少必要性使原模型单独为去开发一整套完全独立调度系统


原因:整体原模型后端节是差别大特点非常强依赖gpu,语言模型背后gpu都需要记过去帮计算。而gpu成本高单价贵,不能浪费。且GPU在整体供应上是非常不弹性,跟CPU不同,gpu下单时间长。相对于整体缺少弹性


需求方面,流量潮汐非常明显,聊天场景会发现实流量波峰,还有波谷中间有着10倍甚至上百倍波动,会导致整体在供应非常稳定基础数量情况之下,白天资源不够用。晚上gpu就都在闲着浪费。用来弥补特点是语言模型在很多像数据处理大规模达标分类等等,场景中是有非常应用,在夜间还有比较空闲流量时候,几乎有无穷无尽推理需求,把需求完全打满。如果把这两种流量都承接掉,会时常处于一种系统超载状态,表现上看到系统不断有大量状态码。结合原模型请求时间非常长,这两个特点会使得很多传统自动扩缩容,传统运维手段失效,因为很难根据系统现在是否已经有太多超载,或者请求时间变长了去判断是否给集群做扩容缩容


2.LLM调度系统设计目标

需要针对系统去开发一套单独独立调度系统,内部去设计系统关键一点常态化429状态,把持续处于超载,甚至响应不过来这么系统,认为这是常态。通过方式,保证整体系统请求量,时时刻刻是大于整体系统处理能力gpu就总是能够保证被充分利用,成本更低。当然,除了成分像一件事情之外,另外这几个要求,其余跟传统业务要求是类似,比较重要实时去沟通聊天东西不能不能被打断,或者出现429卡顿就用不了情况,以及大模型,因为做流式不断生成这么场景,投资速度保持稳定均匀输出,并且不能在有严重卡顿,所以都会导致,如整体系统小作迁移,这几十秒之内想做迁移,是非常困难满足上面所有基础之上,就尽去降低整体推理上基础占用,把成本

低。


3.Kimi LLM调度系统

在内部设计组件和模块,共同去完成和实现上面设计目标。很多模块跟传统阿里云,或者很多传统运维系统模块组成是类似,但是整体系统中由于超载,还有GPU特点设计思路不一样。就使得很多模块跟传统会出现很难同时开两份集群并去调度流量,而是必须要配合流量数量去对应调整gpu分配比例,所以都是跟传统灰度上线思路非常不一样模块


4.KIMI调度实践

流量调度展现语言模型调度区别,这张图是整体是语言模型流量分布,可观察潮汐特点是非常明显,在夜间或者中间坑是去吃饭时间,流量峰值有差异,整体上面这条虚线是 gpu固定固定值,所以相当于绝大多数时间都在控制。非常自然一件事,通过流量预测,还有提前分析,提前知道有接下来多长时间,有多少控制,把所有控制地方去安排上相对应训练任务,把技术就充分利用起来,可观察,并不是所有空闲地方都会被新任务占用,是因为任务本身自己是有特殊要求,节点数量包括进行了这段时间等都有特殊要求,在做了分割之后,会发现问题预测模型,不管做多么准,确都没有办法100%来保证下一秒流量来时候,总是能刚被承接住,这一点就导致要预留很多去承接这部分资源突发值,造成了浪费因此引入了所谓叫可打断流量,可观察所有浅色部分,是相对比较容易方便打断流量,通过一定设计,使得流量维持在10%左右百分比,流量是Kimi上在用APP时候,后台分析功能,或者是像给tips等等小功能,流量高峰被降级对用户体验影响是非常小,通过可打断流量,就有更加充分空间去把实施流量突变去容纳下来,借由大量流量8份,再把整体推理错拉起速度去降低到一分钟以内时间,就有比较充分空间,能够在流量突起时候,去承载自己流量还有很多空闲,空闲是依靠离线任务去填补空间离线任务对节点数要求会更加随意,离线任务基本上都是原模型离线推理工作,对工作们对节点数量要求会更零碎,甚至多种更适配实时流量,有很陡峭坡峰,逐步去调整,去把空间都填补上最后还剩了空白地方,在内部会用所谓叫闲时流量空间去填补,闲时空间:即便拥有非常完美离间任务,对于GPU,跟传统弹性CPU的区别为GPU显存非常小设备,显存小导致了很难同时开启两个独立任务GPU任务占用了,基本上就完整独立占用,很难再开第二个任务去跟抢占GPU算力资源,情况下,对于一次推理,GPU最饱满时间为同时响应22个,请求,但是实际上在这节课实时流量包括前面提到可达流量刚只有12个,或者就差一点点情况,GPU在这段时间就会处于虽然通过监控界面看确gpu是100%有机体,但实际上是知道有更多处理能力,此时放置对时间非常不敏感显示流量,随时在秒级单位上,当发现GPU在这一刻处于空闲,就会把流量拼进来此种方式几乎在整体流量曲线上面,把所有技术空间都压榨在秒单位上,会让整体利用效率高。是上哪去找这么多离线任务,包括对时间要求这么低,是不是不是什么时候做完就什么算完,今天流量多就等一等需求。


作为追求大模型公司,在事件大模型过程中,会同样产生几乎同样,甚至更多推理需求来辅助整体模型训练工作。而流量最大特点对时间容纳程度是非常高,推理请求多,完全接受非常长时间以及不确定性通过这些流量把充分去干


5.混合部署带来的挑战

理论的多优先级,包括把训练和推理混合在一起去做调度工作,但实际上在内部为了达成尽高利用率,以及有些非常现实挑战,gpu实际上很难在单一集群位置去满足想要规模,会在很多层面上去做流量混合,包括部署会产生很大的挑战。


6.KIMI LLM API

高可用去响应整体KIMI非常巨大流量波峰波谷变动,并且提升比较优良体验。API而在过程之中,不需要去为更高并发去付出额外成本承诺最低消费,这一点是跟很多竞争对手会不一样,竞争对手会,单价很便宜,但是今天想要获得100并发保证,要去额外付出消费。Kimi平台,就完全去在界面上自助去获得这么多流量弹性,只需为token付费,并且由于系统优先级设计,在跟签订承诺之后,更是达到99.5%token可用性。在tpm的限制范围之内可以做到只要有请求就有对应的GPU资源服务。如果大家使用KIMI的API去开发自己的应用和产品,我们非常支持,我们的目标也是去服务从零到一,从一到一百的持续扩张规模的应用,

 

三、深势科技实践分享

分享内容是深势科技基于原生架构一套多云算力融合解决方案。首先介绍深势科技主要专注于AI4S领域,在领域里面遇到算力问题有哪些为什么要去提出一套多元算力融合解决方案会跟去讲详细架构实践情况,最后会跟汇报多元算力融合方面公司努力


1.深势科技

深势科技源自中国,面向未来,引领全球新工业革命。通过人工智能手段,结合多尺度模拟仿真算法和先进计算手段去解决重要科学问题。正如底层基础模型算法,原子间势函数大训练模型,一定要研究分子构象关系大模型。底层有一系列算法群,希望通过这一系列基础模型,打造新一代工业设计仿真平台,并且能在一系列场景端去展现出先进研发平台,展示了相关,这是在医药领域RYDYMO是同样靶点靶标研发平台,药物设计平台,电池自动化研发平台,波尔空间站是针对于泛科研领域客户提供一套教学沿用一体化科学研究平台,设计和仿真平台,以及自动化研发平台去赋能像上游工业场景。


2. 02勒贝格:AI4S场景的高效算力方案

针对于AI在领域,为什么要去解决算力问题在算力层面,到底遇到什么样问题,要去用到多元算力融合

首先会先分享AI4S域,计算特点,从微观到宏观,不同时间尺度,还有空间尺度上都有了现成物理模型,像薛定弩方程,像分子动力学模型,模型被经常用到很多工业场景当中,药物设计,材料设计,过往传统物理模型里边所解决是在多尺度跨尺度计算场景当中,希望通过原子结构去预测物理性质,边就会涉及到微观计算问题和宏观场景问题映射。AI出现给问题求解带来新能力,通过对微尺度物理模型学习,去映射到物理场景,或者是工业当中问题进行跨属建模,从而很去解决问题。

由于涉及到跨尺度计算问题AI4S涉及到AI和科学计算融合问题,就必然面临,要用到AI里面常用训练和推理方法,以及多尺度计算不同尺度上物理模型计算问题,在应对问题很多基础设施问题就会变出来,算力不高问题,边经常会像不同地域,不同类型问题算了一流问题,比如常见CPU和GPU,当然有fpj,在科学计算领域,不同尺度计算差异会非常大,对算力与网络等要求不尽相同,甚至有时候会有针对某些物理模型专属硬件出现,所以算力问题,在非常严重,还有在计算任务当中就会出现算力使用波峰和波谷问题,在科学计算和AI融合场景,在早期数据数字化阶段,需要调用有上千盒甚至上万盒CPU去进行物理模型运算。在后续推理过程当中,仅需要通过少量gpu就完成推理动作


所以为了应对问题,给出了解决方案,上层是各种各样工业场景,像生物医药,材料科学等等,在下一层会给出像物理模型运算软件,以及AI模型,算力场景会首先对上游提供整体产品包装和统一统一原理,调用原语,会去做场景和算力映射,在底层算力资源池,会将算力集群统一通过勒贝格汇聚成大资源池,在大资源池里面,会帮用户去统一完成调度工作,就能够打通了连接业务和基础设施进行高效算力匹配。同时解决算力异构问题,比如接入过程当中,有CPU,甚至国产芯片,会在底层算力损失去进行处理。平台会有至少包含人工智能几个要素,算力算法数据,以及物理模型和AI算子模型。从平台优势上面,要打造算力充沛,开箱即用,使用便捷。需要让用户边对整体完整计算过程可追踪计算结果,可分析简化,加速,会针对于不同工业场景,会打造一整套包括镜像包括容器,套件等等一系列场景套件,帮助不同场景用户能够快速接入系统。


3. AI4S场景方案架构实践

首先算力系统演进。因为实际要用到一套算力系统去解决自己训练问题。首先选择科学计算,要去上云,当时是基于阿里ecs去做,后续随着弹性调度需求越来越高,开始去转向云原生,最早在科学计算领域里边去做云原生架构一套平台,现在随着SSI逐渐成熟作为主要算力使用慢慢在解决问题之后,随着包括去接入算力资源,越来越多,逐渐会开始去封装出上游产品,包括整体公司所有产品线都是基于一条基础设施,现在整体算力基础设施拿出来单独去做商业化运营。


对用户,提供三种使用方式,一种是通过操作界面方式,用户通过可视化方式直接去进行算力调度,第二种,因为科学计算用户很多老师更多是超算用户转到这转过来了所以会提供过去调用方式,还有一种开发者onpi主要是应对于老师已经本身自己再去研发商业化应用,只要用到算力,通过方式去接入,再往下产品功能层面过程中,像项目管理,因为很多科研组,都是走项目制,是走预算制,所以项目管理预算管理对是刚需以及会对数据产品和算力产品做了统一包装,下一层调度层和资源层,调度层主要是算力调度,存储,调度镜像,以及监控等等基础设施稳定保障在资源层,主要分为公有算力和用户算力。公有算力,主要是以混合云为主,用户算力,更多是用户自建边缘集群。


这是一套多集群调度方案,涉及到很多底层集群异构问题,有些老师边缘节点,是没有云原生化,所以一般会去先帮去做云原生改造,以及不同节点上面会加边缘AGANT,主要是完成边缘集群管理工作,做事情是聚会给主要是跟AGANT进行通信,将调度策略去下发下去,把所有集群统一化管理对上层提供统一接口,调度部分包括缓存处理,存储调度等等,再往上平台建设了。


为了让算力能够更灵活调度,因为存储问题要做本身会因为就联系非常紧密,要想对算力进行更多调度,要把存储和算力给拆开,所以做了统一存储统一是统一方式存储和存储存合理架构。架构基于阿里云规则存算分离带来静态性能问题,肯定是希望存储和计算更近,方法为在不同边缘集群加一份高速缓存,主要类似缓存加速系统为主。当用户再去做训练时候,将存储进行一次调度,所以存储和算力调度是协同来进行。往上对于用户存储产品层面包装,数据集,共享盘,包括任务IO等等,用户再去使用产品,只需要去用到数据产品,而不需要关心实际存储介质,就会帮用户去调整到合适算力以及合适存储。


工作流解决方案,基于argo,同时对ARGO进行了二次封装。方案已经开展了,边ARGO主要区别是在于架构,在工作流每节点里面,不会去调自有k8s资源,而是去做了一次整体勒贝格调度系统。所以认为整体工作流,是跨域异构算力一套工作流,去在每个阶段里面去进行不同任务调度和存储调度,整体工作流,目前不管在管理节点


4.勒贝格智算平台应用实践

案例分享,跟创业实验室一起合作案例,当时客户需求是要自建数据中心,用户需求是当本地资源池足够用时,高用本地资源,本地资源不用时候,够去谈到云。超算上面去,所以做了一套云端一体云超一体方案,所以当时是管理大概 CPU是10万核,百量级GPU卡,这是底层架构层面对上层层面是用户提供了本地化,能够去直接使用可视化系统,帮助所有科学研究。


随着勒贝格方案逐渐成熟,就吸引到其它用户,发现因为整体这条架构体系,这蛮适合中小型Aigc企业,预算有限,算力使用相对临时需求上图是100 600动态扩容需求三天就可以整体算力服务提供出去最后案例波尔空间站是教学一体化科研,称之为空间站,主要是针对于老师上课场景。同学在上课过程当中去看老师上传课件课程,右侧边是notebook产品,更多是零散算力使用需求notebook和codelape区别在于模型计算和Ai场景。大多数有大的镜像就可以支持所有的运行环境。在科学计算领域不太一样,因为不同领域,使用软件都不尽相同,所以没有办法通过镜像去满足所有需求,比如有1000个案例就很有需要1000个镜像去支持镜像加notebook文本来构成才能把整体案例给支撑起来,所以通过一系列,基于底层一套算力调度方案,在能够做到10秒开机顺利运行,这是对针对客源上讲方案。

以上所有分享内容,感谢聆听

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
5天前
|
存储 弹性计算 运维
云端问道 7 期实践教学-使用操作系统智能助手 OS Copilot 轻松运维与编程
使用操作系统智能助手 OS Copilot 轻松运维与编程
29 14
|
27天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
5天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
15天前
|
Unix Linux Docker
CentOS停更沉寂,RHEL巨变限制源代:Docker容器化技术的兴起助力操作系统新格局
操作系统是计算机系统的核心软件,管理和控制硬件与软件资源,为用户和应用程序提供高效、安全的运行环境。Linux作为开源、跨平台的操作系统,具有高度可定制性、稳定性和安全性,广泛应用于服务器、云计算、物联网等领域。其发展得益于庞大的社区支持,多种发行版如Ubuntu、Debian、Fedora等满足不同需求。
41 4
|
27天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
27天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
27天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
1月前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
1月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
2月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
50 3