ACK 云原生 AI 套件概述 | 学习笔记

简介: 快速学习 ACK 云原生 AI 套件概述

开发者学堂课程【5分钟玩转阿里云容器服务ACK 云原生 AI 套件概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1038/detail/18136


ACK 云原生 AI 套件概述

今天将向大家介绍什么是云原生 AI 以及云原生 AI 套件的核心场景与产品能力。

得益于深度学习等算法的突破,GPO 等算力性能提升,海量生产数据的积累,AI技术成熟度持续提高,产业化落地提速。然而算力成本高、生产效率低等挑战也日益凸显。云原生定义了云计算时代最大化利用云的能力,发挥云的价值的最佳路径。云原生架构和技术越来越多的被应用到企业生产环境中,助力企业数字化升级,加速业务提效创新。因此越来越多企业在 kubernetes 集群中管理异构资源开发运行、深度学习和大数据任务部署和弹性管理AI 服务,希望将人员生丰富的生产实践经验复制到 AI 和大数据领域。

阿里云容器服务 ACK 在 2021 年正式发布云原生 AI 套件。云原生 AI 套件是 ACK 对 AI 负载在基础服务层的增强,以 kubernetes 容器服务为底座向下封装对各类异构资源的统一管理,向上提供标准 kubernetes 集群环境和 API 提供了异构资源调度优化、AI任务调度与弹性伸缩、数据编排与访问加速 AI 作业生命周期管理等核心能力。

image.png

ACK 原生 AI 套件以组件化的方式提供服务,所有组件开箱即用,可灵活组装与扩展,并通过统一的命令行工具、多种语言 SDK 直接使用或定制开发,对 AI 大数据应用全栈优化性能、效率和成本,助力企业快速定制化构建符合自己需求的 AI 平台。ACK 原生 AI 套件还可以与阿里云机器学习平台派无缝的集成起来,为用户提供非常高效灵活的云原生 AI 平台。

一方面派平台的 dsw DLC ES 等服务介入 ACK ,为用户 AI 模型开发、训练和推理带来更好的弹性和效率。另一方面可以在 kubernetes 应用中灵活的集成派平台、深度优化的算法引擎和领域最佳实践,极大优化训练与推理效果,降低 AI 落地门槛。

image.png

ACK 云原生 AI 套件聚焦在两个核心场景,一是持续优化异构资源效率,对阿里云 S 或者客户 IDC 内各种异构资源进行抽象统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。二是高效运行 AI 大数据等异构负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。

image.png

针对异构计算场景,云原生 AI 套件在 ACK 之上增加了对 GPU NPU 等异构算力、 RDMA 高性能网络等资源的支持。针对 GPO ,NPU 这类比较昂贵的资源,还提供了资源利用率优化。一是结合 ACK 弹性节点池,对 GPU 在资源节点数和运行任务实例数两层按需自动伸缩。

二是提供 GPU 共享调度,减少 GPU 卡资源空闲浪费。集成阿里云 cgpo 技术,避免共享 GPU 的多个容器之间出现资源抢占和错误影响。还提供 GPU 拓扑感知等增强调度、多维度 GPU 监控等。基于 ACK 云原生 AI 套件, AI 平台的开发运维人员可以高效率、低成本的管理异构基础设施,既能大幅提高资源利用率,又能显著降低运维复杂度。针对深度学习场景,云原生 AI 套件将 AI 生产过程的主要环节进行抽象,以命令行工具 arena 进行管理,屏蔽底层资源管理、调度分配和监控的复杂性。可支持 tensorflow PyTorch harvard 等深度学习 AI 任务 Spark Flink 等大数据任务 MPI 高性能计算作业等。

还可以结合 copy flow pipeline 或 Argo 开源云原生工作流引擎,为复杂的 AI 任务提供工作流编排服务。

对于 AI 分布式训练等场景, ACK 调度器支持多种典型批量调度策略,支持新的优先级任务队列和租户弹性资源配额控制。为避免过度的云资源消费,云原生 AI 套件还支持了弹性模型训练和弹性模型推理,针对存算分离架构带来的数据访问延迟和远程拉取数据带宽开销大的挑战。

云原生 AI 套件对计算任务使用数据的过程进行抽象,提出弹性数据集的概念,构建了数据编排与加速系统。 fluid 实现数据集管理和权限控制,承载阿里云金岛 FS 开源 align show jose FS 等缓存引擎,实现数据集的预热加速以及监控弹性等能力。

基于 ACK 原生 AI 套件,数据科学家和算法工程师可以低门槛提交 AI 任务,高效运行和弹性管理 AI 负载。目前 ACK 云原生 AI 套件正在公测阶段,适配公共云、专有云、混合云以及边缘等多环境交付,以获得互联网、在线教育、自动驾驶等行业客户的使用。

image.png

欢迎您免费开通原生 AI 套件进行体验。如果您希望第一时间获取原生 AI 套件的新功能发布和活动资讯或者有任何疑问,欢迎加入我们的钉钉交流群。对于更多全面详细的功能介绍和操作教程,我们将在后续的视频中逐步跟大家分享。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
7月前
|
人工智能 PyTorch 算法框架/工具
ACK AI Profiling:从黑箱到透明的问题剖析
本文从一个通用的客户问题出发,描述了一个问题如何从前置排查到使用AI Profiling进行详细的排查,最后到问题定位与解决、业务执行过程的分析,从而展现一个从黑箱到透明的精细化的剖析过程。
|
7月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
8月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
677 17
|
5月前
|
数据采集 人工智能 Java
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
AI Agent技术架构的演进正在重塑软件工程实践方式。开发者可通过智能编程助手提升效率,也可依托专业框架构建智能体系统。技术生态呈现多维度发展,涵盖高代码与低代码方案,并支持Java和Python等多语言。新型开发范式如AutoGen和LangChain降低了开发门槛。LoongSuite作为可观测采集套件,助力企业高效构建AI时代可观测体系,推动标准化数据规范,提升系统稳定性与运维效率。
|
7月前
|
人工智能 Cloud Native Java
2025 开源之夏开启报名|AI + 云原生,10个开源项目、24个课题任您挑选
“开源之夏”是由中国科学院软件研究所发起的暑期活动,旨在鼓励高校学生参与开源软件开发与维护。活动联合各大开源社区提供项目任务,面向全球年满18周岁的高校学生开放报名。每位学生最多可申请一个项目。阿里云云原生提报了包括Apache Dubbo、RocketMQ、Seata等在内的10个开源项目共24个课题,涵盖技术优化、功能实现及AI应用等领域。活动流程包括选题、申请、开发与结项考核,具体信息可访问官网了解。
2391 33
|
9月前
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
阿里云助力深势科技推出创新的玻尔Bohrium®科研云平台和Hermite®药物计算设计平台,并持续完善。这两项先进的工业设计与仿真基础设施成果通过AI技术赋能科学研究和工业研发,不仅大幅缩短了药物研发周期,降低了成本,还显著提高了研发成功率,为生物医药行业带来了前所未有的变革,这是AI for Science领域的重大突破。
620 38
|
9月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
9月前
|
存储 人工智能 Kubernetes
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
9月前
|
存储 人工智能 物联网
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。

热门文章

最新文章

推荐镜像

更多