热浪和AI给数据中心高效运营带来重重压力

简介: 热浪和AI给数据中心高效运营带来重重压力

最佳温度范围是数据中心高效运行的关键因素。然而,随着全球进入极端高温时期,停电风险越来越严重,而且这种风险还在不断增加。

热浪可能导致数据中心组件过热和故障,导致运营商关闭服务器以防止损坏,从而导致停机和潜在的停电。

例如在2022年7月,伦敦气温达到创纪录的104华氏度(40摄氏度),导致冷却系统出现故障,导致Google和Oracle数据中心下线。两个月后,酷热摧毁了Twitter位于萨克拉门托地区的数据中心。

Cockroach Labs首席技术官、联合创始人Peter Mattis指出,敏感电子设备和硬件(如服务器、存储设备和网络设备)中的各个组件在既定的工作温度下才能以最佳状态运行。

数据中心的推荐温度范围可能低至65华氏度或高至95华氏度,在防止过热和潜在设备损坏方面发挥着关键作用。

这个范围是由特定硬件目标的工作温度范围和该硬件可以运行的条件决定的。

“随着热浪越来越多,这将是一个反复出现的问题,而且问题会越来越严重——热浪加上停电,数据中心就离线了,”他说。

Akamai企业可持续发展总监Mike Mattera解释说,温度波动始终是数据中心运营的一个考虑因素,而天气的预期范围并不是主要问题。

“我们已经解决了这个问题。相反,极端温度,尤其是高温,会给电网带来巨大压力,并可能增加当地生活用水系统的使用量,具体要取决于冷却系统。”

当热浪来袭时,电力和水的使用量会因为系统和冷却技术类型的不同而增加,给当地市场带来额外的压力。

Mattera指出,在电力和水资源较为有限的地区,例如美国德克萨斯州和亚利桑那州,这成了一个特别突出的问题。

确保热浪期间的连续性

Mattera解释说,由于当今全球都出现了极端高温,很多人都参与到确保数据中心能够继续运行的行动中。

确保热浪期间连续性的关键利益相关者是现场设施管理人员,更广泛地说,是设施团队,包括电工、机械工程师以及供暖、通风和空调(HVAC)专业人员。

“这个团队需要确保关键系统正常运行,并且在出现问题时现场有不间断电源可用,”他说。

他警告说,轻微的功率下降可能会破坏泵、风扇和压缩机等组件,从而影响系统冷却和调节空气。

此外,数据中心冷却具有庞大的控制系统网络,需要稳定的电流来操作系统的各个组件,以确保调节后的空气以最佳方式流入数据中心空间。

Sustainable and Scalable Infrastructure Alliance (SSIA)社区董事会成员Zachary Smith表示,数据中心运营商和支持这些设施的机械团队会针对一系列自然灾害和资源限制制定计划。

他补充说,数据中心运营商随后会与客户密切合作,以遵循已经发布或经过商定的服务水平协议(SLA)。

“如果资源或自然灾害需要关闭或限制某些服务,他们可能还会与客户制定应急计划,”他说。

从他的角度来看,过去几年最大的重点是效率——尽可能有效地利用电力、冷却和水资源,减少整个设施的浪费。

这一点已经实现了——通过提高数据中心温度、改进监控解决方案和智能楼宇管理系统、以及电力分配和调节方面。

越来越多的数据中心运营商正在实施液体冷却技术,以进一步提高设施的效率,同时在很多情况下,会在设施或IT设备层面转向闭环“无水”冷却设计。

“所有这些都有助于数据中心提高效率,能够在日益严峻的条件下运行,”Smith说。

Komprise总裁兼首席运营官Krishna Subramanian表示,节能基础设施和更有效的冷却设计(如液体冷却)是目前正在考虑的两种技术。

“另一种有效但较少探索的高效数据中心电源管理策略是减少主动管理的数据量,”她说。

由于数据消耗了数据中心30%甚至更多的资源,并且80%的数据都是冷数据,因此高效的数据管理可以减少数据中心三分之一的负担,甚至不需要对基础设施进行任何大改。

“随着热浪频率的上升,再加上高密度AI处理器的热量输出越来越大,问题在两个方面越来越加剧,”Subramanian说。

AI让挑战变得越来越复杂 但同时也提供了解决方案

AI 的持续崛起将加剧挑战,但许多挑战也有助于解决保持数据中心在可接受的工作温度下运行的问题。

AI耗电量大,更多的AI处理会增加数据中心的热量输出和功耗,从而加剧问题。

Smith表示:“一方面,具有更密集硬件配置的模型训练和推理的AI工作负载需要大量计算能力和能源,为AI模型和应用供电的服务器会产生大量必须消散和冷却的热量。”

在这方面有很多机架级创新成果已经显现,用于提高冷却和电源效率,其中包括从风冷数据中心转向机架级液体和浸入式冷却,以及从12V转向48V以实现更高效的散热。

Mattera表示,训练这些模型时发生的复杂计算需要更多资源密集型硬件,从而导致模型整体功率增加以保证最佳运行。

“资源利用率和发电量的增加意味着数据中心内会产生更多热量,这会给冷却系统带来压力,”他解释说。

此外,AI算法和模型的动态特性可能导致电力需求和热量产生激增,而传统的冷却系统可能难以跟上。

“考虑到过去一年对集中式数据中心建设的巨额投资,以满足对大型语言模型的旺盛需求,我预计电网的压力将会进一步增加,”他说。

Smith指出,虽然AI工作负载的增加给保持数据中心处于最佳工作温度带来更多挑战,但它也可以成为解决问题的一个良方,其中包括用AI来优化热性能管理,例如对液体冷却或气流的需求,以及对冷却系统的预测性维护。

“随着热浪的增加,AI还可以用于为实时天气和长期环境模式系统提供动力,从而可以根据外部因素自动调整能源消耗和冷却系统,”他说。

相关文章
|
5天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
9天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
5天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
14天前
|
人工智能 弹性计算 文字识别
基于阿里云文档智能和RAG快速构建企业"第二大脑"
在数字化转型的背景下,企业面临海量文档管理的挑战。传统的文档管理方式效率低下,难以满足业务需求。阿里云推出的文档智能(Document Mind)与检索增强生成(RAG)技术,通过自动化解析和智能检索,极大地提升了文档管理的效率和信息利用的价值。本文介绍了如何利用阿里云的解决方案,快速构建企业专属的“第二大脑”,助力企业在竞争中占据优势。
|
16天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3936 2
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
5天前
|
算法 安全 网络安全
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
2024阿里云11.11金秋云创季活动火热进行中,活动月期间(2024年11月01日至11月30日)通过折扣、叠加优惠券等多种方式,阿里云WoSign SSL证书实现优惠价格新低,DV SSL证书220元/年起,助力中小企业轻松实现HTTPS加密,保障数据传输安全。
506 3
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
|
12天前
|
安全 数据建模 网络安全
2024阿里云双11,WoSign SSL证书优惠券使用攻略
2024阿里云“11.11金秋云创季”活动主会场,阿里云用户通过完成个人或企业实名认证,可以领取不同额度的满减优惠券,叠加折扣优惠。用户购买WoSign SSL证书,如何叠加才能更加优惠呢?
987 3
|
9天前
|
机器学习/深度学习 存储 人工智能
白话文讲解大模型| Attention is all you need
本文档旨在详细阐述当前主流的大模型技术架构如Transformer架构。我们将从技术概述、架构介绍到具体模型实现等多个角度进行讲解。通过本文档,我们期望为读者提供一个全面的理解,帮助大家掌握大模型的工作原理,增强与客户沟通的技术基础。本文档适合对大模型感兴趣的人员阅读。
418 18
白话文讲解大模型| Attention is all you need
|
4天前
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
9天前
|
算法 数据建模 网络安全
阿里云SSL证书2024双11优惠,WoSign DV证书220元/年起
2024阿里云11.11金秋云创季火热进行中,活动月期间(2024年11月01日至11月30日),阿里云SSL证书限时优惠,部分证书产品新老同享75折起;通过优惠折扣、叠加满减优惠券等多种方式,阿里云WoSign SSL证书将实现优惠价格新低,DV SSL证书220元/年起。
561 5