引言
在今年的阿里云栖大会上,吴泳铭在演讲中强调,算力是数字经济发展的重要支撑。他指出,“算力资源的分配不均和成本高昂,已经成为阻碍AI及大数据应用广泛普及的关键瓶颈”,“阿里云致力于构建全球领先的算力基础设施,为社会提供强大而经济的计算能力,助力各行各业实现数字化转型。” 吴泳铭还提到,阿里云正努力打造一个开放、高效的算力生态,以满足不同场景下的多样化需求。
不久前,在一次与青年科学家的对话中,阿里巴巴集团创始人马云也表达了类似的观点:“我们正站在智能时代的门槛上,而强大的算力则是开启这一新时代的钥匙。未来的竞争将围绕着谁能够更有效地利用算力展开,这不仅关乎技术进步,更是国家竞争力的核心体现。” 阿里巴巴的新老领导人都一致认同算力在未来科技发展中的关键作用,凸显了这一领域的重要性。
2024年世界人工智能大会上,工业和信息化部负责人透露,我国算力规模位居全球第二。截至2023年底,我国算力总规模达到了230EFLOPS,即每秒能完成230百亿亿次浮点运算。
那么,究竟什么是算力?它如何塑造我们的世界?在我国又发展到了什么水平?
算力的定义与本质
简而言之,算力是指计算机系统执行计算任务的能力,它量化了数据处理的速度和效率。这个概念涵盖了硬件(如CPU、GPU、TPU等处理器)、软件算法以及网络架构等多个层面的综合性能。在更广泛的意义上,算力是驱动人工智能、大数据分析、云计算、区块链等前沿技术发展的核心动力。
笼统来看,算力可分为基础算力、智能算力和超算算力三部分,分别提供基础通用计算、人工智能计算和科学工程计算。
如果按照《中国算力白皮书(2022年)》的定义,算力又可详细分为四部分:通用算力、智能算力、超算算力和边缘算力。其中,通用算力以CPU芯片输出的计算能力为主;智能算力以GPU、FPGA、Al芯片等输出的人工智能计算能力为主;超算算力以超级计算机输出的计算能力为主。边缘算力,主要是以就近为用户提供实时计算能力为主,是前三种的组合,用以解决网络延迟产生的问题。
根据中国算力发展指数白皮书测算, 算力每投入1元,将带动3-4元的经济产出。
在实际应用中,通用算力、智能算力和超算算力往往相互关联和依赖。如在进行人工智能训练时,需要使用超算提供的强大计算能力来加速模型的训练过程;在进行大规模数据分析时,需要使用智算来提取有用的信息和模式;在进行日常的办公和娱乐时,需要使用通用算力来处理各种常见的计算任务。
人工智能算力
应用——大模型
人工智能的算力主要应用在人工智能(AI)大模型的训练及推理。
我们知道,大模型就像人一样,需要学习,慢慢成长后才会变得强大,而他的学习方式就是训练。简单以图像识别为例,先让AI大模型知道每张图像是什么,有什么特点,比如人物、风景等,在经过训练后AI 模型可以对新的图像作识别并分类,知道这是一张人物,那是一张风景图,当然更厉害的是按照要求生成图像,这个过程就可以简单理解为“推理(inference)”。
训练所需要精度更高,算力也更高,并且需要有一定的通用性,以便完成各种学习任务,因此目前 AI 训练芯片的算力一般都采用16位浮点数进行标志,另外支持32位浮点数计算,甚至64位双精度数据的计算。
推理是借助已经训练好的AI模型进行运算,利用输入数据获得所需要输出的结果,对精度和算力要求较低,因此一般推理都是采用8位整型对算力进行标志,计算时也都是进行整型运算。
载体——服务器
AI服务器是一种能够提供人工智能(AI)计算的服务器,它既可以用来支持本地应用程序和网页,也可以为云和本地服务器提供复杂的AI模型和服务。
AI服务器有助于为各种实时AI应用提供实时计算服务,按应用场景可分为训练和推理两种,其中训练对芯片算力要求更高,推理对算力的要求偏低。
AI服务器主要以GPU服务器为主,2022年我国GPU服务器占AI服务器的89%。
核心-芯片
AI芯片是算力的核心。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责);伴随数据海量增长,算法模型趋向复杂,处理对象异构,计算性能要求高,AI 芯片在人工智能的算法和应用上做针对性设计,可高效处理人工智能应用中日渐多样繁杂的计算任务。
AI芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。
GPU属于通用型芯片,ASIC属于专用型芯片,而FPGA则是介于两者之间的半定制化芯片。
中国算力产业链图谱、空间布局及发展趋势梳理
产业链图谱
产业链上游核心为IT软硬件设备,包括基础硬件(如CPU、GPU、存储器等)、计算设备(服务器等)和网络设备(交换机、路由器、光模块等)及基础软件(如操作系统、数据库、中间件等),是计算力、存储力、运载力的最基本单元,也是决定算力质量的根本环节。此外,还包括供配电(配电柜、变压器、UPS等)、散热制冷(风冷、液冷等)等配套设施。
中游为算力网络及平台,包括各类算力基础设施建设及基于基础设施开展的IDC服务、云服务、人工智能算力服务及安全服务等,是为下游应用提供算力服务的核心环节。
下游为各类应用场景,涵盖互联网、金融、政务、交通、教育、工业、医疗、能源等行业和领域。
空间布局
2022年,随着国家“东数西算”工程启动,我国算力地图正式开始,形成八大枢纽、十大算力中心集群。其中,八大枢纽包括:京津冀枢纽、长三角枢纽、粤港澳枢纽、内蒙古枢纽、宁夏枢纽、甘肃枢纽、成渝枢纽、贵州枢纽。十大算力中心集群包括:京津冀算力中心集群、长三角算力中心集群、粤港澳大湾区算力中心集群、成渝算力中心集群、内蒙古算力中心集群、贵州算力中心集群、甘肃算力中心集群、宁夏算力中心集群、新疆算力中心集群、云南算力中心集群。
我国超算中心市场规模全球领先。我国高度重视科技创新,在超算技术方面不断取得突破,自主研发的超级计算机多次获得世界超算500 强排名的前列位置。根据第 56 期全球超级计算机 TOP500 榜单数据,中国部署的超级计算机数量继续位列全球第一,达到 226 台,占总体份额超过 45%。截止2023年,我国共有14座科技部批准的国家级超算中心。分别位于天津、深圳、长沙、济南、广州、无锡、郑州、昆山、成都西安、太原、重庆和乌镇。
此外,近几年,国内的算力市场持续增长,其中智能算力规模增长迅速,占比达到近30%,尤其这两年国内智算增速高达70%左右,已经成为算力经济发展的新引擎。不过就我国而言,智算中心仍有极大发展空间。据中国信通院公开信息,从建设状态看,截至2024年5月,我国智算主要还在建设和规划中,总算力规划272EFLOPS,但目前建成运营的只有104EFLOPS。2023年,这一整年全国有20+座智算中心建成或在建。公开数据显示,截至2023年底,全国带有“智算中心”的项目已有128个。2024年,北京、四川、宁夏、河南等多地智算中心开工或投入使用。
2023年以来,以ChatCPT、Sora为代表的AIGC大模型横空出世,掀起了一股席卷全球的AI浪潮。想要在AI浪潮中占据优势,就必须拥有强劲的AI算力支撑。智算中心作为AI算力的核心基础设施,逐渐成为人们关注的焦点,也是行业重点建设的对象。2024年又有一批智算中心投运,这些智算中心采用专门的AI算力硬件,适合高效运行AI算法。它们可以应用于计算机视觉、自然语言处理、机器学习等领域,处理图像识别、语音识别、文本分析、模型训练推理等任务。
发展趋势
自主可控:随着国际形势的变化和国内技术的进步,国产算力加速发展。国家及各级政府从政策层面促进国产算力芯片使用,《算力基础设施高质量发展行动》明确要逐步形成自主可控解决方案,上海、天津、江苏等地制定算力中心国产化芯片使用率目标。
多元异构:多元异构算力能满足不同场景对计算资源、计算能力的多样化需求,充分发挥各种计算设备的优势,实现计算效力的最大化。随着元宇宙、云游戏、机器视觉、工业互联网等新型应用逐渐落地,对算力提出越来越高的要求,未来多元异构算力有望快速发展。
绿色低碳:大模型驱动的智算中心功率密度大幅提升,算力中心能源消耗、碳排放问题日益受到关注。国家不断完善算力中心建设相关政策要求,修订算力中心评价指标体系,推动液冷、储能等绿色低碳技术应用,促进算力中心绿色低碳发展。
集群建设:数据量激增、计算需求增长以及虚拟化和容器等技术应用,推动算力中心向规模化、集群化发展,万卡以上的大规模集群加速建设。如,中国移动将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练需求。
智能运维:将AI技术应用于算力中心的运营维护,有助于提升算力中心运维效率和质量,可实现智能的资源调度、监控预警、检测排障,保障系统的稳定性和可靠性,还可根据设备的负载情况和环境参数,自动调整冷却系统和电源系统的运行策略,助力节能减排等。
参考文献: