芯片研发设计单月算力成本降了50%怎么做到的?

简介: 面对芯片设计中日益严峻的算力挑战,S半导体经历了从自建HPC集群到结合公有云的尝试,导致成本上升。后来,采用MMCloud解决方案,首月即实现50%的算力成本降低。MMCloud通过大规模集群管理、算力碎片整理和机型动态调整实现精细化调度,帮助S半导体提升了研发效率并降低成本,展示了在行业寒冬中的降本增效策略。

据企查查的数据显示,2023年,平均每天有30家芯片企业在消失。

在政策、资本聚光灯下泡沫翻涌的半导体行业进入“冷静期”,2024年,有的项目已然退场,有的项目冉冉升起。

S半导体,一家位于中国上海的数字芯片创新企业,半年内连获两轮融资,第一款芯片也即将面世。在激烈的竞争中,他们率先卷出了“消费降级,体验升级”的新实践。

01 不能不面对的算力挑战

从上世纪五十年代手工绘制电路到如今的计算机辅助设计,集成电路(IC)设计的复杂性日益增加,芯片研发设计工具(EDA)对算力资源的精细化需求也逐渐凸显。

· 算力波动:在芯片设计的各个阶段,对算力的需求呈现出显著的波动性。

  1. 初步设计与仿真 - 在这个阶段,设计师使用EDA工具进行初步的电路设计和功能仿真,这通常需要中等规模的计算资源。
  2. 详细设计与优化 - 这个阶段需要进行更为复杂的仿真和分析,如时序分析、功耗分析和信号完整性分析,这些任务对算力的需求显著增加。
  3. 验证与回归测试 - 芯片设计完成后,需要进行大量的验证和回归测试来确保设计的正确性。这包括功能验证、时序验证和综合验证等。由于需要处理大量的数据和执行复杂的算法,这个阶段对算力的需求非常高。
  4. 物理设计与布局布线 - 在物理设计阶段,EDA工具将电路设计转换为可以在硅片上制造的布局和布线。这个过程需要处理大量的几何数据和执行复杂的优化算法,对算力的需求达到顶峰。

· 成本问题:算力的波动导致如果为了满足各阶段的算力需求而搭建更大的本地集群,前期的IT基础设施投入会很高,而且在算力低谷期还会存在大量的资源浪费。

· 管理复杂性:如果为了省成本考虑使用本地集群+云端算力混合模式,算力资源的管理变得更加复杂,企业就需要精通本地和云端的IT架构,以确保资源的有效利用。

02 本地+云,能解决问题吗?

来自S半导体研发部门的Kris说:“我们在日常研发过程中,每次前端回归验证(regression),EDA软件会产生2000并发以上的短时计算任务。”

虽然S半导体自建了HPC集群,为EDA软件提供资源支持,在设计初期,算力资源充足,甚至有很多空闲,但随着项目推进,本地集群已无法满足突发算力需求,导致大量任务排队,影响研发效率。

在业内,本地集群算力不足时补充公有云算力资源并不是一种新的解决方案思路,S半导体的技术团队也想到了利用公有云的弹性和可扩展性。经过团队的探索及外部供应商的助力,芯片研发的效率得到了保障,但算力成本水涨船高。

于是,他们再次萌生了寻找新解决方案的念头。

03 不藏了,给你分析一下单月算力成本降了50%的秘密

MMCloud的效果让S半导体的研发团队感到满意:在运行MMCloud的第一个月,S半导体的算力成本就减少了50%。

每个产品在宣传的时候都喜欢用“降低XX成本,提高XX效率”这样的字眼,看得多了,这样的话就越来越像一句口号。所以,我们不如详细拆解一下S半导体算力降本50%背后的原因。

大规模集群管理,先降30%

在芯片研发工作中,时间线很重要。为了保证进度,研发工程师通常会选择比实际预估偏大的机型来运行作业,每个作业的运行时间不同,大量任务并发时,就会出现30%的时间已经运行完大部分作业,而剩下的70%长尾时间运行完的机器只能空置,造成了资源浪费。

MMCloud可以稳定调度大规模小机型集群,将任务分散在大规模小机型上,即便依然有70%的长尾时间,所需要的成本比之前降低了30%。

截屏2024-05-07 11.19.07.png

算力碎片整理,高并发小任务降20%

那70%长尾时间里空闲的算力资源是否还能再利用?既然要降本,就要做到极致节约。

MMCloud的WaveRider能力支持智能选配适合的资源,当工程师继续提交高并发小任务时,MMCloud能自动寻找当前空闲的机器来运行任务,这样70%长尾时间的碎片化算力资源也能被充分利用起来,将成本再次降低20%。

场景二.png

机型动态调整,大任务成本降50%

正如前面所说,大任务运行过程中会存在波峰低谷,工程师往往很难预估大任务所需的真实算力资源,为了保证任务顺利运行,他们通常会按照波峰算力资源来选择大机型,这样在算力低谷期就存在大量浪费。

MMCloud支持机型动态调整,通过对运行中的作业进行实时监控,及时发现算力的变化,并调整机型,哪怕是运行中的作业也可以随时封装成一个带时间戳的数据集,实现了迁移到更适配的机型上也可恢复、可回滚、可迁移、可复制的功能。

WechatIMG1813.jpg

04 通过精细化调度做到极致降本增效

随着半导体行业红利的逐渐消失,粗放式的研发模式已经落后于时代,对于S半导体来说,通过算力的“消费降级”实现了更精细化的调度管理,最终获得的是极致的性价比。

MMCloud深耕混合云算力调度,通过精细化调度提供本地集群与云端资源的统一管理、统一调度、统一展示,满足大规模突发算力需求,且算力弹性伸缩、按需使用。

图片 1.png

拥抱新技术的团队已经拿起了新地图,向着新大陆前进了。

目录
相关文章
|
物联网 测试技术 网络性能优化
MQTT常见问题之收不到MQTT消息如何解决
MQTT(Message Queuing Telemetry Transport)是一个轻量级的、基于发布/订阅模式的消息协议,广泛用于物联网(IoT)中设备间的通信。以下是MQTT使用过程中可能遇到的一些常见问题及其答案的汇总:
|
SQL 机器学习/深度学习 自然语言处理
达梦(DM) SQL函数相关
讲述 DM 数据库函数
|
存储 算法 物联网
R-Tree算法:空间索引的高效解决方案
【5月更文挑战第17天】R-Tree是用于多维空间索引的数据结构,常用于地理信息系统、数据库和计算机图形学。它通过分层矩形区域组织数据,支持快速查询。文章介绍了R-Tree的工作原理、应用场景,如地理信息存储和查询,以及Python的`rtree`库实现示例。此外,还讨论了R-Tree的优势(如空间效率和查询性能)与挑战(如实现复杂和内存消耗),以及优化和变种,如R* Tree和STR。R-Tree在机器学习、实时数据分析等领域有广泛应用,并与其他数据结构(如kd-trees和quad-trees)进行比较。未来趋势将聚焦于优化算法、动态适应性和分布式并行计算。
859 1
|
人工智能 算法 芯片
天天都在说的“算力”到底是个啥?一文全讲透!
算力是数字经济发展的重要支撑,尤其在AI和大数据应用中起着关键作用。阿里云致力于构建全球领先的算力基础设施,助力各行业数字化转型。吴泳铭和马云均强调了算力在未来科技竞争中的核心地位。2023年底,我国算力总规模达230EFLOPS,位居全球第二。算力分为通用、智能和超算算力,广泛应用于人工智能训练与推理等场景。中国正加速建设智算中心,推动算力产业链发展,并注重绿色低碳和智能运维,以应对日益增长的计算需求。
19787 19
|
小程序 开发者
鸿蒙原生开发手记:04-一个完整元服务案例
鸿蒙原生开发手记:04-一个完整元服务案例
810 4
鸿蒙原生开发手记:04-一个完整元服务案例
|
JSON 分布式计算 Java
ODPS开发大全:进阶篇(2)
ODPS开发大全:进阶篇
758 9
|
JavaScript Java 测试技术
基于Java的音乐播放器的设计与实现(源码+lw+部署文档+讲解等)
基于Java的音乐播放器的设计与实现(源码+lw+部署文档+讲解等)
283 1
|
SQL 关系型数据库 MySQL
阿里云数据库使用教程、购买、价格、连接数据库全流程
阿里云数据库使用涉及购买、创建及登录步骤。支持MySQL、SQL Server等引擎。购买时选择所需配置、地域和可用区。创建数据库和账号后,通过DMS登录。在同一地域内,ECS需将IP加入RDS白名单以实现内网连接。详细流程见阿里云官方文档。
1859 2

热门文章

最新文章