面向 AI 的存储基础设施升级

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: AI 与大数据融合化是大势所趋,企业可以通过大数据技术收集和存储大量数据,进行一站式计算分析和数据治理,以便安全、精确、高效、智能地应用数据。在这个话题中,我们将会介绍阿里云全栈存储数据基础设施如何支撑 AI 场景的创新与实践,并带来全新一代存储产品的重磅发布,帮助企业高效数字创新。

分享人:Alex Chen,阿里云智能集团弹性计算、存储产品线产品负责人

在AI浪潮的推动下,算力的增长显而易见,这一点不仅体现在分析师的报告中,也反映在市场需求的持续攀升上。根据统计数据,过去12个月内,计算能力实现了三位数的增长,增速超过300%。随着算力的迅猛提升,AI所需的存储数据量也在同步增长。

在云栖大会的主论坛中,我们也听到了关于强化学习等AI模型和技术的新进展。这些进步所需的数据,不仅仅是实际采集的数据,还包括通过仿真模拟生成的数据。因此,AI是一个数据驱动的行业,其创新离不开海量的、高质量的数据。只有拥有这些数据,我们才能训练出精准的模型,构建出实用的AI应用。

面对海量的数据,存储行业面临着诸多挑战,包括性能、成本、数据治理以及对数据的安全合规使用等。在大数据时代,如何挖掘数据的潜在价值,将这些挑战一一克服,是我们必须思考的问题。阿里云存储产品线从“Storage for AI”和“AI in Storage”两个主要方向进行演进。

image.png

Storage for AI旨在通过存储产品支持更多AI应用的高效创新。

首先是“Any Performance”。在存储行业中,以往购买存储系统时,其存储架构往往针对某一特定性能进行优化。例如,有的存储系统擅长支持OLTP工作负载,具备高IOPS和低延迟的特点,但在处理大文件时可能表现平平;有的则擅长处理海量对象存储,但在处理小规模的KV数据时性能较弱。我们认为,一个综合的存储平台应该能够为每一个使用场景提供极致的性能优化,确保在各种数据使用场景下都能保持最佳性能。

其次是“Any Interface”。存储系统有多种接口,如快速的block接口、文件接口,包括NFS、SMB等,适用于Windows、Linux等操作系统,以及object接口,并通过RESTful API访问,。在AI和大数据应用中,客户的应用场景多样,有的基于文件接口,有的已经改造为使用RESTful API访问对象存储。而同样的数据应该能够支持多种协议访问,不应被任何一种协议所绑定。

第三个是“Anywhere”。以往,由于数据传输速度相对较慢,当数据量巨大时,通常需要将算力部署在存储附近。然而,随着AI技术的蓬勃发展,大量高性能GPU在高性能网络构建下所需的电力资源不可能在任何可用区或区域都进行部署。因此,算力通常只能在固定的几个点进行部署。这就带来了新的挑战:数据可能分布在任何地方,如何高效地将数据传输到算力所在的位置,使算力得到充分利用,避免闲置?同时,在数据传输过程中如何保证数据的准确性和完整性,以及如何将数据从温度较低的区域传输到算力密集型的区域,都是我们需要解决的问题。

最后一个是“Any Data”。十年前,企业主要关注的是自身产生的数据。随后,企业开始越来越重视从客户端(C端)收集的数据。在大数据时代与AI融合的时代,我们需要管理的数据类型更加多样,可能包括购买的数据、仿真数据或从其他地方收集的数据。这些数据的安全治理和管理带来了对存储产品的更多需求和挑战。

在另一个方向“AI in Storage”上,AI也能够助力基础设施的迭代。从“Any AI Healing”的角度来看,我们利用智能方法对大规模的分布式存储系统进行预判性诊断,识别出哪些部件、环节或节点可能出现性能衰减或未来可能发生故障的情况。对于这些可预期的或AI能够发现的故障节点,我们能够主动发现和修复。此外,当故障发生时,AI能够快速定位庞大的系统中的问题所在。

在AI Management层面,我们致力于帮助客户和用户更好地管理他们的存储基础设施,包括存储容量、性能预期等方面。同时,我们还利用AI方法帮助客户管理数字资产以及解析数据,例如通过内容解析来发现潜在的恶意病毒或安全问题,并主动进行排除。

最后是存储方面,我们将与 Serverless 的GPU 或向量索引能力进行集成,通过 API 的方式助力更多的AI应用。通过基础设施产品,用户可以快速构建 AI 应用,例如将非结构化数据转化为结构化数据,从而构建一个简单易用的RAG 产品。

面向 AI 的存储基础设施升级

面向多种计算引擎& AI框架,OSS实现端到端高性能

去年,单个 OSS 客户在单个region内可达到100Gbps的性能吞吐能力。然而,许多客户并未能充分利用这一高性能,主要瓶颈在于终端应用层面。因为只有端到端的优化才能真正发挥100Gbps的性能潜力。部分客户仍采用文件访问方式处理对象存储,针对这种情况,我们进行了性能优化,包括元数据处理的改进和读写性能的提升(如OSSFS的升级)。

此外,针对那些访问频率极高的热点数据,我们推出了OSS加速器的升级版本。以往,OSS加速器主要针对大数据场景,数据规模较大,起步容量通常为TB级别。现在,我们针对AI场景,将加速器的起步容量降低至50 GB,并提升了性能密度,以更好地满足AI业务需求。

在AI的Connector和Python SDK方面,我们也进行了大幅优化,使客户能够基于OSS轻松进行数据预处理。许多AI应用在进行预处理时需要模型支持,通过OSS Connector或SDK直接访问OSS,可以显著提升性能。

在生产环境中,许多客户将大数据分析和 AI 应用相结合。他们构建的数据湖在存储带宽能力上从以前的几百Gbps升级到数十 TBps 。由于客户的应用场景多样,优先级也各不相同,因此,我们根据客户需求,在客户实际生产环境中实现了功能升级:将多个存储桶整合到一个资源池中,并实现了任务级别的服务质量(QOS)控制。这样,客户就可以动态地为 AI 应用、离线批量处理业务、搜索推广业务等分配所需的存储吞吐带宽。这一改进帮助客户更好地利用底层数据产品支撑,实现了AI 和大数据的一体化。

文件存储CPFS,满足指数级增长的AI智算所需能力

接下来将分享这两年存储行业所面临的挑战,特别是大型基模训练在10万GPU规模场景下对存储的需求。CPFS 可以视为高性能梯队的一员,它不仅能够容纳邻近GPU 的本地化缓存,构成分布式缓存系统,还拥有高性能的并行文件系统,以满足客户对小文件和大文件的读写需求。这种卓越的性能使得客户在写入检查点时,能够将耗费数千个GPU 小时训练的模型检查点迅速卸载到分布式高性能存储层,从而大幅减少 GPU的闲置时间。

CPFS 与对象存储 OSS紧密相连,能够顺畅地实现数据的上下流通、冷热加载、预加载等操作,根据计算需求智能调配所需的数据和算力,并将计算结果存储在对象存储中,以便进行更长期的保留或分发。

数据流动与智能化数据管理

对象存储OSS与CPFS之间的数据流动至关重要。如何高效地将数据根据需求流向高性能层级?又如何将高性能层级的数据流向分布式缓存?这是我们需要整体考虑的交互方案。然而,由于算力资源分布不均,电力和计算卡等资源稀缺,我们需要更加高效地将所需数据从存储移动到算力所在的位置,无论是从上海到内蒙古,还是反向移动,都需确保数据的流畅传输。

OSS数据索引支持AI检索

上述内容讲述了底层基础设施如何支持 AI 业务。同时,我们也将AI能力融入存储产品中,使其升级为智能存储。以往,我们有九种元数据可以做索引,如根据文件的创建时间、更新时间、对象大小等标签进行索引。但现在,通过向量索引和AI嵌入技术,我们能够根据内容更好地进行结构化处理,将标量索引与向量索引相结合,使客户能够更快速地利用向量和索引能力来构建RAG(检索增强生成)模型或AI助手。

基于通义大模型构建网盘多模态AI能力

接下来,将通过demo来展示这一能力。例如,在企业网盘中,我们可以根据对象桶中的数据快速进行内容搜索。通过自然语言查询,用户可以找到对应的图片或视频。此外,我们还可以使用简单的方法构建基于对象的知识库,或制作简化的RAG应用。最后,通过copilot功能,客户可以使用自然语言查询内容、提出问题或查询内部信息,并获得相应的答案。以上所有努力都是为了方便客户调用产品的API,包括无服务器的GPU资源,与OSS紧密结合,形成简单的智能AI助手或RAG应用。

全球最完整的储存产品和服务

综上所述,今天的分享聚焦于整个存储产品家族的全面升级。在公共云领域,提供了快速的文件存储、对象存储以及表格存储解决方案。而在客户的数据中心(On-premise)环境,我们也提供了丰富的混合云存储选项。这两者之间,数据迁移(或数据流通)扮演着至关重要的角色。此外,在存储层的上方,我们还统一提供了容灾备份、媒体管理以及网盘服务等,旨在为客户打造全方位的数据密集型解决方案。

未来的发展方向将主要聚焦于两个维度:一是打造专为AI设计的存储解决方案;二是将AI能力融入存储产品中,推动存储向智能普惠的新阶段迈进。

目前,阿里云平台上已经承载了超过500万来自全球各地的客户数据。这不仅仅包括传统企业的数据上云需求,还涵盖了互联网云原生的业务创新。同时,也有众多AI原生的创业公司正在基于我们的基础设施平台进行创新和价值创造。

 

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
28天前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
19天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1536 26
|
14天前
|
存储 人工智能 NoSQL
Tablestore深度解析:面向AI场景的结构化数据存储最佳实践
《Tablestore深度解析:面向AI场景的结构化数据存储最佳实践》由阿里云专家团队分享,涵盖Tablestore十年发展历程、AI时代多模态数据存储需求、VCU模式优化、向量检索发布及客户最佳实践等内容。Tablestore支持大规模在线数据存储,提供高性价比、高性能和高可用性,特别针对AI场景进行优化,满足结构化与非结构化数据的统一存储和高效检索需求。通过多元化索引和Serverless弹性VCU模式,助力企业实现低成本、灵活扩展的数据管理方案。
47 12
|
14天前
|
存储 人工智能 缓存
面向AI的存储软硬结合实践和创新
本次分享的主题是面向AI的存储软硬结合实践和创新,由阿里云智能集团专家袁茂军、王正勇和常存银主讲。内容涵盖三大板块:自研存储部件设计及实践、自研存储服务器设计及实践、以及面向AI场景的存储软硬一体解决方案及实践。重点介绍AliFlash系列存储部件的演进与优化,包括QLC SSD的设计挑战与解决方案,并探讨了高性能存储服务器在AI场景中的应用与未来发展方向。通过软硬件深度融合,旨在提升AI业务的性能与效率,降低总拥有成本(TCO)。
|
15天前
|
人工智能 前端开发 IDE
通义灵码 2.0 全新升级发布会:你的 AI 程序员来了!
「飞天发布时刻」通义灵码 2.0 发布专场来啦。
|
15天前
|
存储 Serverless 文件存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
AI在电子商务中的个性化推荐系统:驱动用户体验升级
AI在电子商务中的个性化推荐系统:驱动用户体验升级
225 17
|
28天前
|
人工智能 安全 大数据
PAI年度发布:GenAI时代AI基础设施的演进
本文介绍了AI平台在大语言模型时代的新能力和发展趋势。面对推理请求异构化、持续训练需求及安全可信挑战,平台推出了一系列优化措施,包括LLM智能路由、多模态内容生成服务、serverless部署模式等,以提高资源利用效率和降低使用门槛。同时,发布了训推一体调度引擎、竞价任务等功能,助力企业更灵活地进行训练与推理任务管理。此外,PAI开发平台提供了丰富的工具链和最佳实践,支持从数据处理到模型部署的全流程开发,确保企业和开发者能高效、安全地构建AI应用,享受AI带来的红利。
|
2月前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
2月前
|
存储 人工智能 物联网
工业公辅车间数智化节能头部企业,蘑菇物联选择 TDengine 升级 AI 云智控
在工业节能和智能化转型的浪潮中,蘑菇物联凭借其自研的灵知 AI 大模型走在行业前沿,为高能耗设备和公辅能源车间提供先进的 AI 解决方案。此次采访聚焦于蘑菇物联与 TDengine 的合作项目,通过 AI 云智控平台的建设,双方携手推动制造工厂的能源数智化管理,助力企业实现节能降碳。在本文中,我们将深入探讨蘑菇物联选择 TDengine 的原因、项目实施中的挑战与解决方案,以及合作视角下双方的未来愿景。
37 2