AI驱动下的云存储创新

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: 随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显。同时, AI 快速发展也为云存储的进化与创新提供了强大的驱动力。本话题将解读AI 驱动下云存储的进化趋势,分享阿里云存储的创新技术,助力企业实现数字化升级。

分享人:阿里云智能集团弹性计算存储产品线产品负责人 Alex Chen

随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显,同时AI快速发展也为云存储的进化与创新提供了强大的驱动力。

一、数据就像浩瀚的宇宙

当谈及存储时,我们不可避免地要考虑数据。可以将数据视为如同宇宙一般,持续不断地膨胀着。其数据量在不经意间,无规律且持续地增长。随着数据量的不断累积,分析这些数据便成为了一项挑战。我们认为,数据的量增也带来了某种引力效应,因此有时需要将算力直接部署到存储层面,因为将数据迁移到算力所在位置所花费的时间,可能会超过实际计算所需的时间。数据蕴含着丰富的价值,那么,我们该如何通过分析数据来挖掘其潜在价值、发现潜在趋势呢?同时,数据如同宇宙一样,伴随着诸多风险,例如各种病毒侵袭、人为操作失误,或是机房设备故障,这些都可能导致企业失去其最核心或最宝贵的资产——数据。

二、未来,每一家公司都将是Data+AI的公司

在数据时代,数据与AI的结合推动了各公司数字化转型过程中与AI的深度集成。在AI和大数据集成的时代,基础设施面临着新的挑战。

1. CIPU2.0,进一步提升数据加速的效率

阿里云的核心硬件CIPU进行了升级,这不仅是从1.0到2.0的简单演进,而是经过五个代系的迭代,历时七年。从最初的微处理器、微服务器芯片硬件,到虚拟化加速IO的改进,不论是在网络还是存储领域,都实现了从FPGA向AC化的转变。随着软件的持续优化和硬件能力的提升,数据中心的数据传输效率和性能得到了显著提升。在基于CIPU 2.0的架构下,数据中心的网络带宽至少达到了200G以上,实例及其配套的网络和存储能力都有了大幅提升,甚至达到几百万IOPS或300万IOPS以上。

2. 高性能HPN7.0-为AI设计的高性能网络架构

AI时代带来了大规模模型训练的新业务场景。在大规模训练中,云计算的整体架构如同一台计算机,由多个GPU协同工作。如果任何一个节点或网络出现问题,可能会导致整个训练失效或算力资源浪费。因此,GPU之间以及算力节点的协同至关重要,网络的可用性和高可用性尤为关键,这在某种程度上也代表了算力的高可用性。为应对这些挑战,计算场景下的网络能力被重新设计,形成了高性能网络的架构。该架构分为两层:第一层支持上千块GPU的集合通信,通信只需一次跳转;第二层可支持上万块GPU,并将前端网络与后端存储网络分离,确保两者互不干扰。此外,通过自研网卡、自研流控、自研协议以及端到端的优化,确保计算系统具备99%的有效可用率。

3. 飞天盘古

经过16年的打磨,盘古的分布式存储技术历经了三个阶段的发展。1.0阶段实现了上万台设备的集群规模,2.0阶段注重提升性能,3.0阶段则专注于端到端的软硬一体化优化,包括对SSD和Flash存储的高效调优。这些技术驱动了产品的不断演进,并在技术上保持了领先地位。

三、存储产品

1. Storage for AI——4 Any

Any Performance:在传统存储系统中,通常会针对特定的性能需求进行优化,例如优化随机读写、优化吞吐量、优化小文件或大文件处理。然而,随着统一数据存储底座的出现,我们面对的是多样化的工作负载和性能需求。因此,在每个场景下都要做到最优表现,而不是在所有场景中妥协为“平庸的表现”。  

Any Interface:由于数据底座的广泛性,它已经采用了单一协议,这意味着不再需要为切换存储类型而烦恼。许多客户仍然使用文件系统来访问对象存储,或者有些客户已经切换到通过API访问对象存储。因此,接口本身不再重要,重要的是能否支持传统应用和新的创新应用。AI应用可能基于对象存储,也可能基于传统的文件系统。  

Anywhere:有人提出“数据有引力”,数据在哪里,计算资源就应该在哪里部署。然而,现实中并不是所有地方都能部署大规模GPU集群和高性能网络,甚至有些地方也无法提供数据中心所需的电力和规模。因此,高性能算力集群通常只会部署在特定地区,数据需要根据需求顺畅且高效地移动到算力集群中。Anywhere接口的概念不仅仅涉及冷数据到热数据的迁移,还包括数据按需高效地流动,支持跨地域的算力分析,例如从上海到乌兰,按需求流动数据,成为关键特征。  

Any data:以前,客户主要管理自身业务产生的数据。但在大数据时代,除了自己产生的数据,客户还可能需要管理购买的数据或第三方产生的数据。如何高效管理这些数据,并找到需要的数据,成为AI模型训练成功的关键。因此,数据治理和管理变得至关重要,这也推动了存储产品的演进,尤其是将AI能力应用到存储产品中。  

2. AI enabled Storage——3 AI

AI-Healing:利用AI技术对存储系统中的潜在问题进行预测和自动修复,减少人工干预,提高系统的稳定性和可靠性。OSS 针对 “AIGC” 场景的多模态内容支持原生的内容安全和恶意文件检测,快速识别常见病毒,防止恶意文件传播和执行。
AI-Management:通过AI算法优化存储资源的分配和调度,实现存储系统的自动化管理,帮助企业管理好存储性能预期、数字资产,提高存储效率和降低成本。阿里云利用了 Tablestore 表格存储的向量检索技术,推出了OSS数据索引的新功能——语义检索。这一功能不仅能够处理文档,还支持内容生成及AI助手服务,使用户能以更智能的方式管理海量数据,极大地提高了数据搜索、处理及管理的效率,尤其适用于大规模多模态数据集的管理。

AI-Generation:指的是存储系统能够利用AI技术生成智能报告和洞察,帮助用户更好地理解和优化他们的数据存储策略。阿里云企业网盘基于通义大模型构建网盘多模态 AI 能力,支持自适应数据分段聚合、融合索引以及跨模态查询等功能,轻松利用海量非结构化数据构建各类AI应用。

围绕 Storage for AI 与 AI in Storage 两大领域,提出“ 4 Any + 3 AI ”是存储产品的升级方向。

四、全球最完整的存储产品和服务

每年都会接收一个庞大的存储图像,以及各种快速存储文件、对象和表格数据,这些数据均被妥善存储在云端。同时,在本地部署了混合型存储系统。该系统还整合了统一的灾难恢复备份、媒体管理和网盘服务,构成了我们存储密集型的解决方案。

在科技奖项方面,我们获得了诸多荣誉,得益于盘古存储产品不断获得业界和国家的认可与奖项。这些肯定也激励我们在技术上持续精进。

五、总结

存储产品的演进将持续朝两个方向发展:一是支持更多的AI业务,无论是数据准备、模型训练、模型微调,还是大规模的万卡集群模型训练,或者是规模稍小的百卡模型训练,甚至是后续的大规模推理任务。其中,推理任务可能是单机推理,也可能是多机推理。我们将把更多的AI能力嵌入到存储产品线中,使存储具备更智能的能力,并通过Copilot或自然语言界面,帮助客户更高效地管理他们的存储和数据资产。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
9天前
|
人工智能 弹性计算 运维
AI驱动的操作系统服务评测报告
阿里云推出AI驱动的一站式免费操作系统服务套件,包含SysOM管控组件和OS Copilot智能助手,提供集群健康监测、深度系统诊断等功能。通过直观的操作界面和详尽的诊断报告,帮助运维人员优化系统性能,提高工作效率。特别针对EOL操作系统提供订阅管理服务,确保系统安全。整体体验令人满意,但在文档详细度和定制化方面仍有提升空间。
44 13
|
28天前
|
人工智能 IDE API
AI驱动的开发者工具:打造沉浸式API集成体验
本文介绍了阿里云在过去十年中为开发者提供的API服务演变。内容分为两大部分:一是从零开始使用API的用户旅程,涵盖API的发现、调试与集成;二是回顾阿里云过去十年为开发者提供的服务及发展历程。文中详细描述了API从最初的手写SDK到自动化生成SDK的变化,以及通过API Explorer、IDE插件和AI助手等工具提升开发者体验的过程。这些工具和服务旨在帮助开发者更高效地使用API,减少配置和调试的复杂性,提供一站式的解决方案。
|
14天前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
265 28
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
|
16天前
|
人工智能 运维 数据可视化
AI驱动操作系统服务评测报告
阿里云操作系统服务套件集成AI技术,提供集群健康、系统诊断、观测分析和OS Copilot等功能,助力高效管理。安装组件流程简便,系统观测与诊断功能强大,数据可视化效果佳,支持历史趋势分析。OS Copilot智能助手回答逻辑清晰,但部分问题需增强专业性。整体评价高,建议进一步优化错误提示、自动诊断及订阅服务记录,提升用户体验。
64 25
AI驱动操作系统服务评测报告
|
4天前
|
人工智能 自然语言处理 语音技术
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。
60 10
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
|
10天前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
58 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
21天前
|
存储 人工智能 自然语言处理
|
9天前
|
人工智能 运维 监控
探索未来:AI驱动的操作系统服务评测
### 探索未来:AI驱动的操作系统服务评测 本文介绍阿里云新推出的AI驱动操作系统服务套件,为运维工程师和开发者提供免费、智能的操作系统管理体验。通过Alibaba Cloud Linux的实际操作,评估其安装便捷性、系统健康监控、智能助手OS Copilot等功能。该服务显著提升了工作效率约30%,并增强了服务可靠性。AI技术的融入使系统管理更加智能化,值得尝试。
49 16
|
13天前
|
人工智能 自然语言处理 数据可视化
校企合作|TsingtaoAI携手潍坊学院,共建AI驱动的党建信息化系统
TsingtaoAI与潍坊学院近日达成合作,正式签署《人工智能党建信息化系统开发》技术开发合同,计划在未来两年内联合开发一套集党员教育、党务管理、党建活动智能化以及数据可视化于一体的智能党建系统。本次合作将充分结合TsingtaoAI在AI大模型领域的技术优势和潍坊学院的学术资源,为推动党建工作的数字化、智能化和高效化注入新的动力。
35 10
|
14天前
|
人工智能 运维 Linux
AI驱动的操作系统服务体验:大模型时代的运维革新
AI驱动的操作系统服务体验:大模型时代的运维革新
28 5