本文来自云科技时代公众号
麦肯锡预计到2030年前,AI有望为全球经济贡献25.6万亿美元的价值,其中生成式AI的贡献高达7.6万亿美元。自2023年“百模大战”以来,基础大模型的“战事”已经进入尾声,大模型正在“卷向”产业和行业,越来越多的创新企业正在进入企业和行业大模型市场,让大模型真正落地、创造经济价值。
然而,当前的智能算力已经被AI头部大厂占满。业界推测GPT 4使用了2万多张GPU集群,训练了90-100天,训练成本高达6000-8000万美元,体现了面向大模型训练的AI基础设施,具有独占性、大规模和长时间的特点。中小创新企业既无力投资自有算力,也无法与头部大厂争抢有限的算力资源,从而也难以参与快速发展的大模型AI技术。
IDC指出,大模型正在重构整个IT生态,新一代AI基础设施将是下一个战场。当前,很多地方政府和企业正在投资智算中心,云大厂也在投资AIaaS,这些几乎都以服务头部创新企业为主。而只有服务中长尾上中小创新企业的AI基础设施,才有可能真正重构市场竞争格局,让中小创新企业参与大模型AI市场,释放大模型的普惠红利。
下一个战场:新一代AI基础设施
大模型与生成式AI正在加速从以CPU通用计算为核心的算力体系,向以GPU为代表的加速计算为核心的计算体系转型。当前,加速芯片正百花齐放:NVIDIA GPU一家独大,谷歌TPU、AWS Trainium、各种国产GPU和AI加速芯片等蓬勃发展,新一代AI基础设施呼之欲出,但异构AI芯片功能各异且不通用,生态也很有限,实际上形成了大模型普惠的瓶颈。
新一代AI基础设施的不仅面临着芯片层面的瓶颈,在大模型“大力出奇迹”的指导思想下,还面临着大系统的创新挑战。万亿或十万参数大模型对于传统数据中心提出极大的挑战,包括需要构建大规模万卡集群、高速分布式存储、高速可预期网络和调度加速框架等。例如,万卡智算中心网络特点是大规模、高带宽、低延迟、零丢包等,这些都是大系统创新挑战。
当前万卡集群的建设仍处于起步阶段,主要依赖NVIDIA GPU及配套设备实现,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。为了服务中小创新企业,新一代AI基础设施除了在芯片、系统硬件、系统软件和基础设施等方面进行创新外,还需要在算力调度、大模型与生成式软件开发、应用部署等软件层面进行创新,端到端打通应用生态,才能真正降低中小创新企业的门槛,释放生成式AI的生产力。
打通智能计算生态,任重而道远
打造面向中小创新企业的新一代大模型AI基础设施,关键在于智能计算生态。中国工程院院士孙凝晖指出,当前的国内智能计算生态孱弱,NVIDIA CUDA生态完备,已形成了事实上的垄断。国内企业山头林立,无法形成合力,虽然智能应用、开发框架、系统软件、智能芯片等每层都有相关产品,但各层之间没有深度适配,无法形成有竞争力的技术体系。
NVIDIA公司通过十多年的努力,建立了一个基于CUDA的庞大的智能计算生态,与国内智能芯片公司相比:NVIDIA CUDA生态有近2万人开发,是国内所有智能芯片公司人员总和的20倍;CUDA有550个SDK,是国内相关企业的上百倍;NVIDIA每年投入50亿美元,是国内相关公司的几十倍;此外,AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10……
打通智能计算生态,甚至对于国际领先企业来说,也是任重而道远的任务。根据国际报道,亚马逊正在努力与NVIDIA在人工智能芯片领域的主导地位竞争,经过4年多的努力,仍然面临着低使用率、兼容性差距和项目迁移等挑战。Bernstein研究公司分析师认为,每个主要的科技公司都想要从NVIDIA业务中分得一杯羹,但没有人能够取得进展。
对于中小创新企业来说,在NVIDIA的“垄断性”和云大厂的“孤岛式”AI基础设施之外,再构建一个灵活选择、灵活编排、灵活计价、灵活交付且具有全栈能力的AI基础设施,突破智能计算生态的“墙”,难度之大,可想而知。中国工程院院士郑纬民曾表示,国产生态只要解决好编程框架、并行加速、调度器、内存分配系统、容错系统、存储系统等问题,即使只有国外芯片60%的性能,国产芯片也会大受欢迎。
迎难而上,突破性的中国方案
2024年5月,北京特大型高科技企业北京电控所属的北京电子数智科技有限责任公司(简称“北电数智”)亮相2024中关村论坛,其规划设计与建设运营的北京数字经济算力中心作为新一代AI基础设施,首次进入了大模型AI产业视野。北电数智在9个月的时间里,突破性初步拉通了国产智能计算生态,打造了服务中小创新企业的全栈“AI工厂”。
具体来看,北电数智通过三大创新举措,为中小创新企业打造国产新一代AI基础设施:先进计算迭代验证平台、北京数字经济算力中心以及可信数据空间。
先进计算迭代验证平台主要采用vGPU技术,将物理GPU分割成多个虚拟GPU“切片”,再将虚拟GPU“切片”与不同的国产AI芯片混合起来,形成“高带低”的混合推理、混合训练等模式,面向文本、视频、图片等不同场景,充分发挥不同国产AI芯片在不同场景下的能力,在通用GPU的协同下,以更高性价比,满足不同场景的算力需求。
先进计算迭代验证平台通过软件加速、算子库补齐、网络和通信等工作,实现国产芯片的性能加速和调优,对外提供多场景智能算力。目前,北电数智已经能把国产芯片的性能从30-80分提高到70-90分,达到有用户愿意买单的程度。该平台还通过“以评促用”,让国产算力被用起来,在真实场景中“发现”芯片不足,推动芯片迭代升级,从可用到好用。
先进计算迭代验证平台实现了芯片与主流大模型的全方位解耦和适配。与CUDA的目标不同,CUDA需要解决不同大模型如何运行在NVIDIA GPU上的问题,而先进计算迭代验证平台要解决的是相同的大模型如何运行在不同AI芯片上、再以类似水或电的形式提供给开发者的问题,这其实就为新一代AI基础设施的中国方案找到了破题思路——也就是从算力平台层突破生态壁垒而不是从芯片层突破,这样既降低了难度,又找到了产业化路径。
换言之,先进计算迭代验证平台首先解决供需问题,也就是为国产芯片算力找到客户,也向客户推荐国产芯片算力,用经济规模效应让国产芯片算力被用起来,这样国产芯片算力就能参与到实际的场景中,也能不断了解客户的真实需求。其次,先进计算迭代验证平台从算力池、框架、模型到场景和应用进行端到端的联合优化,为开发者提供极致性能和成本优化,让大模型真正落地,在这个过程中不断优化国产芯片性能,同时也能给不同的国产芯片“打分”,让用户选型有据可依。
先进计算迭代验证平台在最底层打造了异构算力资源池,之上就是大系统创新——北京数字经济算力中心,即北电数智正在打造的AI工厂。作为万卡集群的智算中心,北京数字经济算力中心打造了全栈AI能力——算力、算力调度、算法框架、大模型、MaaS和应用开发平台,在每一层都汇聚了众多生态合作伙伴,集众家所长、打磨工程化平台化产品,让中小企业直接“拖拉拽”就可以开发自己的定制化大模型和生成式AI应用,并基于产业的AI全栈式能力,以生产要素聚集、生产能力培育及行业全面赋能的模式,服务AI产业生态企业,进一步实现AI产业生态运营。
可信数据空间则通过隐私计算、区块链、可信数据库等技术和机制,实现数据“安全共享、可信流通”,通过数据采集、存储、处理、分类、传输、交易等,让数据供需双方更加无忧地尝试匹配。可信数据空间提供政务数据专区、金融数据专区、医药数据专区等,为政府和企业提供安全数据盘活服务、脱密数据服务、打通可信数据流通路径。
在算力、算法和数据之外,北电数智也在大模型幻觉、大模型安全、知识产权、行业合规等方面,提供了丰富而全面的解决方案和服务。最后,北电数智还以AI云服务的形式,为中小企业提供低门槛、低价格的智能服务,真正普惠大模型AI。
北电数智所做的这一切,必须要联合智能计算生态的上下游。目前,北电数智已经链接AI产业生态伙伴700多家,包括芯片、服务器、数据中心、AI大模型及工程化、政务及公共服务、先进制造、大交通、大健康、教育、影视传媒等。
为了打通生态厂商的壁垒,北电数智采取了各种方式,其中一种就是“AI江湖产业生态闭门会”,让处于竞争状态的厂商,为了同一目标聚集起来,共同解决整个生态所面临的问题,显现了“集中力量办大事”的优势。实际上,大模型的出现更是对于AI和经济未来的重新想象,更需要昔日的竞争对手坐下来一起重新思考未来,再对齐各自当下的行动。
北电数智在建设北京数字经济算力中心的同时,也揭榜挂帅了北京某委办局政务大模型项目,同时通过先进计算迭代验证平台为用户提供使用指引,为芯片厂商提供可能的发展路径,以可信数据空间促进数据共享流通的“安全可靠运行环境”,将切实的商业利益反哺给整个生态,让国产智能计算生态形成正向的良性循环发展。
在面对客户需求时,北电数智通过三步走,帮助中小企业尽快用上用好智能算力:第一步:针对场景进行“诊断”,帮助用户制定合理升级路径,使企业无需进行大规模的开发投入;第二步,从实践中提炼出与用户需求相契合的“算力+模型”最优组合,缩短AI开发周期;第三步,与生态企业们联合共创,输出最适合用户需求的AI解决方案。
在新一代AI基础设施这个新战场上,北电数智率先实践了中国方案。北电数智是北京电控所属企业,在北京电控整体战略布局下,北电数智正以全面势能,拉通大模型AI产业链生态,端到端打通从实际场景到智能应用、大模型、开发框架、系统软件、智能芯片等的全技术链条,进而逐步培育有竞争力的国产大模型AI技术体系。
全文总结:国产新一代AI基础设施是普惠大模型AI红利、重构未来竞争格局的下一个战场。以北电数智为代表的企业,正在成为国产新一代AI基础设施的“串珠人”,汇聚行业资源、深耕行业需求,串联行业关键节点打造 AI 产业链。以新时代的担当,“集中力量办大事”,拉起国产智能计算生态,闯出与美国不同的AI产业路。尽管突破国际智能计算生态的道路险阻且漫长,但北京数字经济算力中心作为中国大模型AI产业的一面新旗帜,正在集结新的智能计算生态,为中小创新企业重构未来竞争格局。