自主和开放并举 探索下一代阿里云AI基础设施固件创新

简介: 12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。

【阅读原文】戳:自主和开放并举 探索下一代阿里云AI基础设施固件创新

12月13日,固件产业技术创新联盟产业峰会在杭州举行,来自阿里云、字节、百度、华为、飞腾、百敖、移动、浪潮和超聚变等国内30多家企业,上百位固件从业人员线下参会,就固件技术发展和开源开放标准进行线下交流和研讨。联盟在现场进行了多项重磅发布和先进表彰,其中阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。

 

 

中国电子技术标准化研究院副院长郭楠为大会致辞。郭楠指出,固件作为硬件与软件系统之间的重要桥梁,是信息技术稳定运行与高效交互的核心环节。随着新一代信息技术的快速发展,固件产业正迎来前所未有的发展机遇,特别是在中国芯蓬勃发展的背景下,固件的市场需求和创新空间日益扩大。希望各方加强合作与交流,汇聚智慧与力量,共同推动固件技术与产业的快速发展,为我国信息产业基础建设提供坚实支撑。

 

 

 

 

历久弥新

AI时代服务器固件技术更加关键

 

固件技术的标准化可以提升服务器产品的兼容性、互操作性,降本增效,通过制定标准,推动IT设备产业的健康发展。这其中又以BIOS为重中之重。在对下一代BIOS技术需求的闭门研讨中,阿里云服务器研发资深技术专家李羿表示,BIOS升级不能中断业务运行,特别是下一代AI基础设施中,作为定义各部件协同接口,高效完成启动和升级关键动作的控制中枢,BIOS技术历久弥新,发挥越来越关键的作用。BMC属于传统带外业务,云厂商经常碰到带外影响带内业务,阿里云通过专项治理已解决该问题。与此同时,阿里云在服务器故障预测的准确率和召回率上也处于行业领先水平,特别是针对GPU故障预测技术的逐步落地,预计AI硬件系统带来巨大收益。未来固件技术一定是走向更开放、更贴合硬件,发挥出硬件极致性能并提供高可靠性的模式。

 

 

牵头固件开源测试工具研发

荣膺特别贡献奖

 

作为大会重点之一,固件测试认证平台开源测试工具也在大会主论坛正式发布。此工具主要服务于已发布的BIOS/BMC团标认证测试,同时也支撑即将发布的5项行业标准测试认证服务,给互联网和电信等行业用户基线测试和引入测试提供指引。此次开源测试工具的发布,不仅是推动技术标准化与产业协同方面取得的重要进展,也为固件技术的安全性、规范性和产业化应用提供了有力支撑。

 

长期以来,国内固件领域缺少统一的认证平台和测试标准,导致固件测试效率不高,影响行业的创新和发展。在去年6月固件产业技术创新联盟产业峰会上,阿里云联合其他固创联盟成员,牵头开启固件测试认证平台的研发工作,同时发起平台工具开源项目。开源固件测试认证平台不仅服务于BIOS/BMC标准符合性认证测试,同时也服务于业内互联网厂商服务器固件的引入标准测试。来自固件创新联盟10余家成员单位累计40余位开发者加入开源工具项目组,积极参与固件测试认证平台建设,踊跃贡献测试用例,协同开发测试工具。当前,固件测试认证平台已完成200余项用例开发,可满足联盟相关BIOS和BMC标准符合性测试和云服务器机型引入测试,并在本次大会上正式对业界开放。

 

在整个开源固件测试认证平台的设计和建设过程中,阿里云负责设计开发整个固件测试认证平台的框架和基础模块代码,主导开源项目的整体运作,将业内主流公司固件引入的标准用例落地到开源测试认证平台中,同时也为后续ODM厂商推广固件认证,提升服务器标准机固件引入效率迈出了关键一步。因此,阿里云服务器研发高级技术专家杨青荣膺开源项目最佳贡献奖,表彰其在开源固件测试平台和开源工具建设方面做出的突出贡献。

 

 

 

PCIe Switch固件技术首次公开亮相

 

在技术分享环节,阿里云服务器研发资深技术专家蒋小安联合华勤共同完成了关于PCIe Switch固件技术的首次公开演讲。此次演讲不仅展示了该领域的最新研究成果,还深入探讨了这一技术在实际应用中的重要性。PCIe Switch作为一种关键组件,在千卡和万卡级别的AI服务器互连中发挥着至关重要的作用,它能够有效提升数据传输效率和系统整体性能。随着AI服务器系统的复杂性不断增加,对于PCIe Switch固件的需求也日益增长,越来越多的企业开始重视并投入资源进行相关研究。此次演讲所披露的技术细节属于非传统的固件开发方案,相较于传统方案,这种新型技术能够更好地应对复杂多变的应用场景,减少系统爆炸半径,提高系统的灵活性与稳定性。

 

 

自研和开放并举迎接AI浪潮挑战

 

近年来随着云计算、人工智能,特别是大模型技术应用的快速发展,数据中心规模不断扩张催生了更多更复杂的服务器基础设施建设,以及随之而来服务器固件研发和管理的新需求。阿里云在OpenBMC和PCIe Switch固件技术等领域不断进行自研创新,通过固件技术新趋势和潜力的挖掘,以应对上述AI浪潮带来的挑战。此外,阿里云还积极参与固件创新联盟,UEFI、DMTF和OpenBMC等国内外固件标准和生态组织,贡献标准提案和相关源码,推动固件开放生态的不断繁荣。未来,阿里云将坚持自研和开放生态两条路,推动产业链上下游企业和开放生态联动的创新实践,为固件创新产业化落地做好示范。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
8天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
11天前
|
机器学习/深度学习 存储 人工智能
2024阿里云AI交出答卷,全球领先!
2024阿里云AI交出答卷,全球领先!
61 9
2024阿里云AI交出答卷,全球领先!
|
12天前
|
存储 人工智能 数据管理
|
11天前
|
人工智能 云计算
官宣!阿里云成为总台春晚云计算AI独家合作伙伴
官宣!阿里云成为总台春晚云计算AI独家合作伙伴
157 22
|
10天前
|
机器学习/深度学习 人工智能 安全
阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测,机遇, 挑战与展望
本文介绍了漏洞检测的发展历程、现状及未来展望。2023年全球披露的漏洞数量达26447个,同比增长5.2%,其中超过7000个具有利用代码,115个已被广泛利用,涉及多个知名软件和系统。文章探讨了从人工审计到AI技术的应用,强调了数据集质量对模型性能的重要性,并展示了不同检测模型的工作原理与实现方法。此外,还讨论了对抗攻击对模型的影响及提高模型可解释性的多种方法,展望了未来通过任务大模型实现自动化漏洞检测与修复的趋势。
|
5天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
4天前
|
人工智能 安全 大数据
PAI年度发布:GenAI时代AI基础设施的演进
本文介绍了AI平台在大语言模型时代的新能力和发展趋势。面对推理请求异构化、持续训练需求及安全可信挑战,平台推出了一系列优化措施,包括LLM智能路由、多模态内容生成服务、serverless部署模式等,以提高资源利用效率和降低使用门槛。同时,发布了训推一体调度引擎、竞价任务等功能,助力企业更灵活地进行训练与推理任务管理。此外,PAI开发平台提供了丰富的工具链和最佳实践,支持从数据处理到模型部署的全流程开发,确保企业和开发者能高效、安全地构建AI应用,享受AI带来的红利。
|
5天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
12天前
|
弹性计算 人工智能 自然语言处理
云工开物:阿里云弹性计算走进高校第2期,与北京大学研一学生共探AI时代下的应用创新
阿里云高校合作、弹性计算团队​于北京大学,开展了第2届​【弹性计算进校园】​交流活动。
|
7天前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。