面向AGI时代的数据存储、管理与应用

简介: 本次分享由阿里云智能集团解决方案架构师王太平主讲,主题为面向AGI时代的数据存储、管理与应用。内容涵盖AGI的演进、人工智能发展的关键因素、开发框架对存储基础设施的挑战、数据预处理、大数据训练、微调、推理及落地过程。重点讨论了阿里云在数据存储和管理方面的设计与实践,包括高性能存储、成本优化和数据安全检测等功能,旨在应对AI时代的复杂需求。

面向AGI时代的数据存储、管理与应用

内容介绍:

一、AGI的演进之路

二、人工智能发展的因素

三、人工智能开发框架对于存储基础设施的挑战

四、人工智能的数据预处理

五、大数据训练

六、数据问题

七、精调

八、落地过程

九、数据管理过程

 

本次分享的主题是面向AGI时代的数据存储、管理与应用,由阿里云智能集团解决方案架构师王太平分享。

今天主要介绍面向AGI时代,关于数据存储阿里云的主要的设计。

 

一、AGI的演进之路

1.人工智能

在各类大小展会中鲜少被边缘化的话题--人工智能。为何人工智能在过去两年间引起了广泛的重视与关注呢?原因在于,当前的人工智能发展让人们看到了通往通用人工智能的希望,因此吸引了众多目光。有句俗语说,“AI一日,人间一年”,形象地描绘了AI技术进步的迅猛。从去年下半年至今年上半年,每天业界内的新闻都在不断刷新我们对AI的认知。正因如此,大家都满怀期待地盼望着AGI的到来。

然而,正如我们所经历过的历史,人类从历史中汲取的最大教训,往往是人类并未真正从历史中汲取教训。因此,AGI或新技术浪潮的到来,并不能简单地依赖过去的成功经验来指导。

时至今日,业界对于未来的看法依然众说纷纭,存在多种流派。比如激进乐观派,OpenAI在上个月就成功融资了约100亿美金,这笔资金将专门用于下一代基础设施的投资,而其估值也已飙升至1000亿美金。但同时,也有人持不同观点,如NVIDIA的CEO黄仁勋就经表示,预计两三年后AGI将会到来。在这样的背景下,主要探讨一下,大家在这些领域能做些什么?有哪些机会?以及阿里云在这方面又做了哪些努力?

2.投资

在Meta的二季度财报中,扎克伯格宣布他计划再投资上百亿美金,用于构建下一代基础设施,并旨在未来训练其大型语言模型LLama的第四代版本,即LLama 4。据称,LLama 4的训练量将是LLama 3.1的十倍以上。这意味着什么?乐观主义者正在持续且大规模地向通用人工智能这一方向进行投资。值得一提的是,在我撰写这份PPT的时候,OpenAI的OE尚未发布。

3.现实主义

在现实主义阵营中,红杉资本提出了一个极具代表性的问题,即AI领域的600亿美金投资去向问题。去年,在整个AI产业链中,销售基础设施如AI芯片的公司中,有40%到50%的收入被英伟达所占据,其总收入高达3000亿美金,而剩余的3000亿美金则由产业链上的其他硬件和软件供应商分享。然而,整个AI行业,包括大型互联网应用、基础设施以及基础模型所带来的总收入,估计仅有不到1000亿美金。这之间存在着五六千亿的巨大差额,而且这个差额还在不断扩大。

在AI时代,我们面临的是巨额投资,且这些投资在短期内难以看到回报。因此,很多人开始关注ROI。比如去年年初,有一位中国创投人士在接受采访时表示,尽管这波AI热潮汹涌澎湃,但还是要关注ROI,关注APP是否具备盈利能力或短期内的盈利潜力。然而,正如OpenAI的某些观点所指出的那样,大家不应在应用层面投入过多精力,因为很可能下一个版本的通用模型就会覆盖掉当前在特定应用或领域中所做的工作。这是当前AI技术与之前技术相比,差异性极大的一个特点。

4.Transformer

Transformer架构是这波技术浪潮的触发器,也是其基石。Transformer架构是在2017年推出的,从2017年至今已经过去了七年。在这七年间,我们并未见证到业界涌现出下一个革命性的架构,也未见技术层面出现更多实质性的工程优化。在推理过程中,尽管有一些尝试,如减少注意力模型中的计算量、优化注意力的分配,或是进行模型剪枝等,但这些都属于工程上的细微调整,并未带来根本性的变革。

5.开源模型

开源模型,如阿里的通义、Meta的LLama等,其能力已经逼近GPT-4的水平。这预示着什么?在未来的基础模型发展道路上,竞争将会异常激烈。回想起几年前的操作系统和移动互联网时代,那时的操作系统领域可谓是百花齐放,众多手机厂商、互联网厂商,包括阿里,都曾涉足其中,但最终脱颖而出的仅有少数,甚至可以说只剩下两大阵营:安卓与iOS。未来的大模型时代,尽管可能会受到地缘政治、行业壁垒等多方面因素的影响,但基础模型的数量一定不会太多。因此,可以预见短期内基础模型可能不会有重大的突破性进展。在这样的背景下,我们的重点应当转向如何将这些模型落地应用上。

 

二、人工智能发展的因素

人工智能的发展主要依托于三个关键因素:模型、代码及程序。尽管大家最为关注的是模型,但实际上,还有两个同样值得重视的方面,AI info和数据。

1. AI info

在业界众多成功的工程实践中,大多数都依赖于千卡级别的计算集群。去年,一些项目已经迭代至万卡集群,而今年更是迅速扩展至十万卡级别。对于有过大规模系统开发经验的人来说,他们深知从千卡到万卡,再到十万卡,其中的工程难度是呈指数级增长的。目前,所有人都在这个领域里摸索前行。因此,在当前的AI基础设施中,制约发展的并非仅仅是算力,更重要的是互联技术和显存。显存的问题是当前制约模型规模扩大的关键因素。现在的万卡乃至十万卡模型,所能构建的大模型参数量大约在万亿到十万亿之间。若要达到百万亿、千万亿参数级别的大型模型时代,其训练架构必须经历革命性的变革。在未来的AI论坛中,我们可以预见,互联技术、缓存卸载技术,以及GPU与CPU之间的交互技术将成为讨论的热点,这些都是工程上的必要妥协。

2. 数据

当基础模型发展到一定成熟度后,就相当于操作系统。正如安卓系统成熟后,催生了各种移动应用,如淘宝、微信、抖音等的蓬勃发展。同样,当基础模型成熟并确定技术路线后,也将迎来大量的应用投入。在大家都使用相同基础模型的情况下,你的应用与他人的差异何在?在过去,这种差异可能源于对业务的深刻理解。但在AI时代,这种理解方式已经发生了根本性的变化。以自动驾驶为例,传统的思考方式是遇到何种情况应如何操作,如刹车或油门。然而,要构建一个超越人类能力的超人工智能来控制自动驾驶,就不应预设其函数,而应让其自行决定何时刹车。即使在某些情况下它做出了错误的决策,如错误地踩下了油门,也应通过大量的模拟训练来解决问题。这种模型应通过端到端的方式自行归纳出函数,而不是由人类为其设定一个固定的函数。这正是特斯拉的独到之处,它采用了端到端的模型,将整个自动驾驶流程串联起来,而非像传统方式那样通过API在组件间进行交互。这种开发思路与上一个时代截然不同。若想在AI领域取得成功,就必须摒弃过去的一些成功经验。当你认为你的某个成功经验在某个领域大有可为时,应时刻保持警惕,以免被时代所颠覆。大多数情况下,我们往往是那个被时代颠覆的人。因此,必须朝着这两个方向发展,即不断优化AI硬件和提升数据处理能力。

 

三、人工智能开发框架对于存储基础设施的挑战

在AI领域,存在着两种截然不同的开发策略:一种是model-centric,即积极投入于大型模型的训练;另一种是data-centric,即在模型达到成熟阶段后,重点转向提供高质量且具有特色的数据,甚至更深层次地挖掘数据价值。从AI研发的整体流程来看,我们正经历着一次重大的变革。

在全球数据采集方面,早期的模型仅需要少量的数据就能发挥作用。例如,LLama 3.1利用大约10万亿个token,这几乎囊括了人类公开互联网上的所有优质数据。这意味着大型互联网公司在训练模型时,已经将这些数据运用到了极致。

谈及基础模型,GPT中的“P”代表着预训练。这一波新型模型与以往大相径庭,它们采用了预训练与无监督学习相结合的方式。也就是说给予模型海量的数据,让其自由学习,而不设定具体的学习目标。这样的学习方式使模型具备通用的AI能力。然而,要让模型符合人类的需求,解决人类所面临的问题,就需要进行后训练,即post-training。

目前,大多数的差异实际上体现在后训练,而非预训练。预训练是一种简单的无监督学习方式,只要AI基础设施完备,有充足的数据采集和清洗工作,预训练就像是一场文字接龙游戏。例如,“白日依山尽”,第一个输入“白日”,第二个输入“依”,模型就会输出“依”。如果输出的结果不是“依”,就根据误差进行调整,使其向正确的方向优化。这种单字接龙的方式,是一种非常简单且高效的无监督学习方法。然而,在后训练中,却包含了大量的监督微调和直接优化。OpenAI在预训练模型及后训练阶段后,还增加了一个推理训练阶段。他们创建了一个打分模型,对每次输出的结果进行评分,并根据人类的反馈不断优化模型。这些在基础架构上并没有太大的变化。

近期,有人提出强化学习可能是通向通用人工智能的途径。强化学习作为一种已知的方法,怎么可能是通向AGI的唯一途径呢?我认为,真正通向AGI的可能是我们尚未发现的新方法。

当通用模型训练完成后,接下来面临的主要挑战是如何在行业领域中应用。比如,当拥有独特的数据和场景时,如何利用大语言模型的能力进行应用创新。这可能会催生大量的行业大模型,这些模型需要少量的GPU资源和高质量的专业数据。既能享受时代红利,又能具备专业特色。这是普通人或普通企业可以抓住的第一个机遇。

此外,对于个人开发者或中小型企业来说,即使没有高昂的行业壁垒、特定的行业资源和丰富的数据资源,也能进入这个产业。许多创业项目就是由少数人积累起来的,例如美国的AIGC创业企业,他们人数可能只有十几个人甚至几个人,却能创造出年营收可能达到1亿美金的企业,这些企业被称为独角兽。上述企业可能需要做更多的模型优化工作,如小型的low-latency优化和推理优化,以在企业中落地应用。对于传统软件厂商来说,如何将业务与AI相结合,可能需要通过企业的人工智能接入,将业务知识与AI技术相结合,如语音机器人、客服等。这些都是利用AI技术将企业的知识库导入,进行集成后再进行推理的过程。

 

四、人工智能的数据预处理

在AI的整个流程中,预处理是一个至关重要但又常被低估的环节。在过去,文本的预处理通常只涉及TB级别的数据量。例如,使用Spark进行预处理是那时的主流做法,而移动互联网的许多功能也是依靠大数据技术实现的。那时常能听到这样的说法:“大数据比你更懂你”,或者“AI比你更懂你”。大数据确实可以反映一群人的集中行为特征,但AI则能实现个性化服务,即“千人千面”。打开短视频软件,每个人的推荐内容都是不同的,短视频平台似乎比我们自己更了解我们的偏好,以至于很多人都不敢让伴侣查看自己的手机,因为短视频已经精准地展示了个人的所有喜好。

随着AI从语言文本大模型向多模态发展,涉及视频、语音、图像等多种数据类型,数据量将呈现千倍级的增长。例如,OpenAI的sora,其训练数据量可能达到100T到1PB的级别。虽然这个量级看似庞大,但数据清洗率却极高。从原始文本数据到最终用于训练的数据,清洗率可能高达95%到99%,意味着最终只留下1%到5%的有效数据。例如,OpenAI在训练GPT3.5时,可能只用了四十多T的原始数据,经过清洗后仅得到了三百多或四百多G的文本数据,清洗率超过了99%。视频数据的清洗率也大致相同,约为1001。这意味着要构建多模态大模型,原始数据的采集量通常会在百PB到1EB的级别。这并非普通企业能够涉足的领域,需要云计算和云存储提供强大的扩展能力和性能支持。

对于开发人员来说,可能听说过一句话:“生命苦短,我用Python”。在大数据时代,大家普遍使用Java进行开发,包括Hadoop和各类应用程序。因为互联网公司招聘研发人员时,大多要求Java背景;而传统设备厂商则更倾向于招聘Linux C语言的开发者。然而,在AI领域,Python成为了主流语言。这导致整个开发框架发生了根本性的变化。

过去,数据清洗或业务流程通常使用Spark、Hive等应用。而现在,则以Parquet等分布式框架为主,这些框架类似于脚本语言,简洁易用,无需复杂的开发环境,数据科学家也能快速上手。因此,现在大多数AI的数据预处理都转向了Parquet等框架,最典型的例子就是OpenAI。国内几家头部做预训练大模型的厂商,在预训练过程中也大多采用了Parquet。

在Spark时代,底层存储通常使用Hadoop的HDFS语义。而在Parquet时代,则使用Posies文件语义这是典型的多模态视频处理、预处理过程。在预处理过程中,会进行大量的视频分割、字幕提取、标注增强以及数据增强等工作。这时会产生大量的中间态数据,预处理过程可能会经历多轮,每个环节都会进行不同的处理,并产生大量的临时数据。这种临时数据对存储的压力特别大,因为它是超短期的存储需求,涉及大量的创建和删除操作,这对存储系统非常不友好。因为存储系统更希望的是数据能够长期存储、频繁读取,而写入操作和元数据挑战较少。但在数据预处理过程中,这是一个极端苛刻的场景。针对这个场景,我们专门提供了弹性的临时盘,挂载在所有的GPU服务器上,用于临时数据的存储,既快速又经济。

为什么没有选择文件存储或对象存储呢?首先,文件存储的成本特别高。其次,对象存储的响应时间较大,难以满足高密度存储IO的需求。最后,带宽的限制。

还有一个问题是AI无法完全抛弃过去的应用。大多数企业都在使用传统架构运行业务,数据湖和大数据技术也一直在运行。对于AI的需求来说,如何共享一份数据并同时满足AI时代对性能和协议的要求是一个挑战。这是在AI数据湖中针对对象存储所做的一些改进和优化。

 

五、大数据训练

大数据训练过程中面临的最大挑战之一是模型训练的稳定性问题,客户在训练过程中可能会遇到模型频繁中断的情况,有时一天之内需要重启训练十次之多。此外,GPU资源极为昂贵,对于大型AI基础设施项目而言,存储成本可能仅占5%,而GPU成本则可能高达百分之八九十,网络成本也会占据大约10%的比例。如果因为加载数据前的准备不足或训练出错而需要从之前的某个时间点重新开始训练,那么浪费一整天的时间是不可接受的。像GPT、谷歌等开发的大型模型,通常一个训练周期需要30天左右,因此浪费一天就意味着浪费了算力的三十分之一。所以,这些大型模型对检查点的频率要求越来越高,从以前的天级检查点到小时级、再到分钟级检查点。

考虑到存储成本仅占5%,对于一万亿参数的模型,检查点数据的大小可能在15T到20T之间。如果需要在十分钟内将20T的检查点数据写入存储,那么所需的带宽可能在百GB级别。

在读取时加载检查点需要多长时间呢?在模型训练过程中,会采用模型并行、数据并行、张量并行等多种并行方式。在典型的数据并行场景中,整个集群会被划分为多个不同的GPU资源组,同时进行相同的数据训练。数据通常会被切分成8到16份,这是大数据模型训练过程中的常见做法。

假设在最保守的八组数据划分下,写入的带宽需求达到一百多GB,如果要在同样的时间内将检查点数据加载回来,所需的读取带宽将高达一个TB级别。正常情况下,一台服务器使用40G的网口只能达到4到5GB的传输速度,因此要满足1TB的带宽需求,就需要大约200台服务器。

 

六、数据问题

在大模型训练的过程中,面临着一个显著的矛盾:训练数据仅几十个TB,却要求TB级的带宽。这是一个极具挑战性的难题,但也正是云计算的价值所在。云计算可以通过削峰填谷或调配其他性能需求不同的资源,来提供所需的高性能。因此,在训练过程中,最大的挑战之一在于高效处理检查点。

此外,以往的训练可能仅需依赖当天的检查点,但随着模型规模扩大到万亿参数级别,如GP4、GP5(尽管GP5的发布有所延迟)、LLama4以及谷歌的下一代大模型等,我们发现后训练和微调过程变得异常艰难。这时,常常需要从几天前的模型状态重新开始训练。同时,由于多模态数据和历史检查点的需求,训练过程中原始数据往往直接从对象存储中访问。为了提高访问效率,我们推出了基于patch的OS Connect for AI,使patch框架中的dataset和checkpoint组件能够直接与OSS协议对接,从而支持未来大规模AI开发的高效应用。

 

七、微调

在微调阶段,模型数据量可能相对较小,且不需要开发大量专属应用程序进行处理。阿里云已将一些通用的数据预处理功能集成在存储上,如视频截帧、图片质量评分、图片裁剪、文件识别、人脸识别、图像信息统计和向量化检索等。这样,用户只需提供领域数据,并结合开源的通用大模型,便能在阿里云上快速构建自己专业领域的大模型。

在微调数据的过程中,数据会被拆分为两部分:模型加载和数据集加载。对于模型加载,建议使用通用文件系统以提供高性能和低时延;而对于数据集加载,则推荐使用加速器、OS加速器以及patch Connect来提升加载能力。

在推理方面,有两个典型场景:一是大模型如通义千问这样的标准大语言模型;二是类似阿里魔搭社区的模型库,拥有大量基础模型和不同版本的checkpoint、lora等插件。对于超大模型,需要降低显存使用,通过分离式推理提升效率并降低成本;而对于每次按需加载不同模型的场景,则面临模型加载时间过长的问题。因此,在推理场景中,建议使用更高端的存储解决方案,如OS加速器2.0,以优化混合场景下的模型推理。

 

八、落地过程

在AI应用落地过程中,范式发生了变革,并伴随着众多企业业务落地的需求。这时简单的语音助手就能满足上传文档、下载和搜索等基本需求。结合企业中最核心的结构化数据,未来的企业内数据将实现向量和标量结合的结构化和非结构化统一高效检索,从而极大地提升生产力。为此,阿里云提供了表格存储和速度算法通的解决方案,已在一些典型客户上成功落地。该方案提供了更丰富的开发能力和更强大的混合数据库检索能力。

 

九、数据管理过程

大量的多模态数据需要进行海量的检索和每个批次的数据检索。因此,对象存储需要支持除了标量(如时间、类型)外,还要支持向量检索。例如,在实验中输入“海上生明月,天涯共此时”时,能迅速关联到相关的海上明月照片。这可能是未来AI开发过程中的典型需求。

此外,在AIGC领域,面临着强监管的需求。因此,在存储产品中集成了AIGC的数据安全检测功能,以减轻用户的负担并确保数据安全。

最后是成本问题。阿里云OSS存储提供了业界最低成本的深度冷归档方案,每月仅需7.5元。同时,还提供了自动数据流动功能,使用户能够按需调配高性能数据和低成本数据,从而更精确地控制成本。

本次分享从AI的产业链条、数据采集、数据准备、模型训练、微调、推理以及AI应用落地等全流程进行了简要讲解,以及阿里云存储在这方面的应用和实践。

 

相关文章
|
10天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171315 10
|
13天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150290 29
|
21天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201954 14
对话 | ECS如何构筑企业上云的第一道安全防线
|
3天前
|
存储 人工智能 安全
对话|无影如何助力企业构建办公安全防护体系
阿里云无影助力企业构建办公安全防护体系
1242 7
|
3天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1188 23
|
3天前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
372 18
1月更文特别场——寻找用云高手,分享云&AI实践
|
6天前
|
人工智能 算法 芯片
天天都在说的“算力”到底是个啥?一文全讲透!
算力是数字经济发展的重要支撑,尤其在AI和大数据应用中起着关键作用。阿里云致力于构建全球领先的算力基础设施,助力各行业数字化转型。吴泳铭和马云均强调了算力在未来科技竞争中的核心地位。2023年底,我国算力总规模达230EFLOPS,位居全球第二。算力分为通用、智能和超算算力,广泛应用于人工智能训练与推理等场景。中国正加速建设智算中心,推动算力产业链发展,并注重绿色低碳和智能运维,以应对日益增长的计算需求。
|
9天前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。
|
3天前
|
云安全 监控 安全
查收您的2024年度安全关键词
查看年度安全回顾并分享你的 2024 关键词,领安全定制帆布袋!
查收您的2024年度安全关键词
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理