算力中国年度突破成果出炉,PAI灵骏智算上榜!

简介: 近日,由工业和信息化部、宁夏回族自治区人民政府共同举办的2023中国算力大会在银川举行。会上公布了算力领域最具影响力专家学者共同评选出的算力中国·年度突破成果,阿里云“PAI灵骏智算服务”作为国内AI智算基础设施代表获得该重磅奖项。

近日,由工业和信息化部、宁夏回族自治区人民政府共同举办的2023中国算力大会在银川举行。会上公布了算力领域最具影响力专家学者共同评选出的算力中国·年度突破成果,阿里云“PAI灵骏智算服务”作为国内AI智算基础设施代表获得该重磅奖项。


“算力中国·年度突破成果”奖项为攻坚算力领域中的热点、难点和关键问题设立,秉承“开创性、引领性、权威性、公平性”原则,旨在发掘在算力或相关产业达到全球领先水平的基础理论、创新方法、方法模式和平台应用的创新成果。


评审委员会由中国科学院院士、中国工程院院士、知名高校及科研机构专家、领军企业技术带头人组成,集聚中国算力相关领域最具影响力的专家学者。


“PAI灵骏智算服务”是阿里云面向高速增长的AI计算需求打造的算力基础设施服务,可一站式为企业及开发者提供AI开发全流程的工程平台和智能算力。它具有超大并行计算规模、高性能、高效率、高利用率等特点,具备高达10万卡量级的集群可扩展规模,能支撑多个万亿参数大模型同时训练,其中单训练任务可达万卡规模,千卡规模的线性扩展效率达92%。

在此前实践锤炼中,PAI灵骏智算服务稳定支撑了10万亿参数多模态大模型的低能耗训练,在通义千问等大模型的训练和应用中,将大模型训练效率显著提高近 10 倍。此外PAI在线推理服务具备超过万卡规模,在AIGC及典型大模型推理场景提供2倍以上的推理效率提升。


该奖项认为,阿里云PAI灵骏智算服务:

以高性能网络、高性能文件存储、高稳定性、极致软硬件联合优化能力和serverless化服务能力,为大模型研究、AI for Science、AIGC等场景提供坚实支撑。


PAI灵骏智算服务在多个核心技术领域具备领先性和创新性。动辄上千亿参数的大模型训练,并非简单“堆显卡”就能完成,而是囊括底层算力、网络、存储、数据计算、AI框架等复杂技术的系统性工程。除了要通过精巧的设计实现超大计算工程落地外,还要做到“又快又省”,“榨干每一滴算力性能”。


  • 在IaaS基础设施层,阿里云打造了智能计算集群灵骏,通过端网一体、软硬融合的可预期网络技术对集群计算资源进行统筹和优化,实现芯片间微秒级稳定互联和高效并行计算。相关技术创新大幅消除了AI算力拓展性瓶颈,灵骏集群规模最大可拓展至“10万卡级”,能为大模型的开发和应用提供灵活多尺度的智能算力,对上层平台应用提供便捷的容器化服务。


  • 在PaaS平台服务层,阿里云机器学习平台PAI可对庞大训练任务进行自动分拆和分配,提供硬件、网络、框架一体化协同调度能力,构建了速度最快、算力最省的分布式训练方案。同时,针对超大规模分布式训练场景,PAI提供了自动容错训练框架 AIMaster,在大语言模型动辄数周、数月的训练中期中,提供极致的稳定性保障,可充分利用集群算力运行AI任务,减少人工介入的成本,在实际测试中能将大模型训练时间缩短10倍。此外,针对大语言模型效果提升,PAI提供了简单易用的RLHF强化学习框架,使得企业轻松驾驭大模型效果,提升模型端到端生产效率。


今年,PAI灵骏智算服务还推出了国内首个支持serverless化智算服务模式的云上平台产品,提供一键开通、按需分配、极简运维的用户体验,支持AI计算资源的灵活复用,可大幅提升集群利用率,降低客户的使用成本。


据了解,阿里云PAI灵骏智算服务已被众多企业及科研单位应用。阿里云与小鹏汽车合建的智算中心“扶摇”成为国内最大的自动驾驶智算中心,将小鹏汽车自动驾驶模型训练速度提升170倍以上。阿里云与复旦大学共同打造的云上智算平台CFFF,近期发布了45亿参数量的中短期天气预报大模型,将预测速度从原来的小时级缩短到了3秒内。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
弹性计算 Linux Shell
ECS基本命令及简单应用
本场景介绍如何申请阿里云ECS环境资料,并在其下进行基本的Linux命令操作。
|
4月前
|
人工智能 Shell API
Claude Skills|将 Agent 变为领域专家
Claude Skills 是 Anthropic 推出的模块化能力包,基于文件系统在沙盒环境中运行,通过渐进式披露机制向 Agent 注入标准化的流程知识(SOP),实现任务自动化。它与 MCP 协同,分别提供内部知识与外部工具支持,有望成为工业级 Agent 的核心组件。
Claude Skills|将 Agent 变为领域专家
|
2月前
|
人工智能 分布式计算 大数据
全球生成式AI “领导者” ——阿里云,中国AI云市场份额超过2-4名总和
阿里云以35.8%的中国AI云市场份额稳居第一,远超第二至第四名总和;全栈自研“云+大模型+芯片”,通义千问成全球下载量最大开源大模型;亚太唯一在生成式AI四大领域均获最高评级的云厂商,正加速定义全球AI基础设施标准。
642 12
|
4月前
|
人工智能 自然语言处理 Cloud Native
阿里云无影Agent 开发套件AgentBay是什么?
阿里云无影Agent开发套件AgentBay是面向AI Agent的云原生自动化平台,支持自然语言驱动任务调度,覆盖浏览器、桌面、代码、移动端四大场景。集成沙箱、算力调度与安全能力,三行代码实现弹性并发,内置ToolUseAgent支持大模型指令执行,保障数据隔离与安全。
262 5
|
5月前
|
JSON 安全 API
京东API接口的应用场景介绍
京东API是京东开放平台提供的标准化接口,基于RESTful架构,支持商品查询、订单管理、支付、物流跟踪与营销数据分析等核心电商功能。通过OAuth 2.0认证保障安全,助力开发者高效构建集成应用。
394 2
|
消息中间件 Java 调度
Spring Boot 3.3 后台任务处理的高效策略
【10月更文挑战第18天】 在现代应用程序中,后台任务处理对于提升用户体验和系统性能至关重要。Spring Boot 3.3提供了多种机制来实现后台任务处理,包括异步方法、任务调度和使用消息系统。本文将探讨这些机制的最佳实践,帮助开发者提高应用程序的效率和响应速度。
316 0
|
机器学习/深度学习 人工智能 自然语言处理
【AI 初识】神经网络有哪些不同类型?
【5月更文挑战第2天】【AI 初识】神经网络有哪些不同类型?
|
Kubernetes Linux 对象存储
Linux安装Minio
Linux安装Minio
1158 0
|
Python
树莓派的摄像头信息实时发送到PC端显示
树莓派的摄像头信息实时发送到PC端显示
797 1

热门文章

最新文章