阿里云王旭文:某头部IC设计企业EDA上云案例分享

简介: 极致性能、可视架构、弹性部署、安全合规

导语:2022920日,“阿里云EDA上云解决方案”节目正式上线,三位来自阿里云的专家从多个角度带大家了解阿里云如何助力芯片设计驶入“云端高速路”。阿里云智能上海分公司,生物医药&集成电路行业解决方案架构师王旭文,带来了题为《某头部IC设计企业EDA上云案例分享》的演讲,以下是他的分享内容整理,供阅览:

图片1.jpg

目录:

一、客户项目背景

二、阿里云EDA上云解决方案介绍

三、阿里云EDA上云方案的特色亮点和优势

 

一、客户项目背景

 

1. 客户介绍

近年来,随着5G、物联网、人工智能等新技术成熟商用,智慧城市、自动驾驶、智能制造等领域加速发展,使半导体行业经历了一波快速增长。


本次项目客户为某全球知名的半导体设计公司,是全球少数全面掌握2G/3G/4G/5GWi-Fi、蓝牙、电视调频、卫星通信等全场景通信技术的企业之一。它的产品包括移动通信中央处理器,基带芯片,AI芯片,射频前端芯片,射频芯片等各类通信、计算及控制芯片等,业务覆盖全球上百个国家。


图片2.jpg

2. 项目背景

摩尔定律持续发挥作用使得芯片工艺制程不断提升,单位面积上容纳的晶体管数量每18-24个月增加一倍,意味着芯片研发设计所需要的算力也随之水涨船高。同时,IC设计企业非常关注研发效率,芯片早一天完成流片,就意味着早一天投向市场开始盈利;而无法按时上市的项目,则意味着有可能错过最佳窗口期从而失去市场机会。


客户已经意识到传统的线下算力部署方式已无法满足业务快速增长的需要,但对于设计研发上云的决策仍十分谨慎。

 

3. 客户面临的主要挑战和担忧

 

a.  传统线下部署的挑战


① 算力不足、缺乏弹性

客户在线下已经建立了大型数据中心,服务器规模在数千台,但依然无法满足研发部门的需求。尤其是研发从前端逻辑设计进入到后端物理设计后,算力需求量成倍增加;如果遇到一些BUG需要任务重跑,作业排队现象严重。而受制于机房空间和用电指标,客户线下数据中心的扩容潜力已经耗尽;


② 交付周期长,影响研发进度

上云前,IT部门线下购买机器需要经过立项、采购、招标、到货、部署等一系列步骤,短则三个月,长则半年,而疫情更加剧了供应链的不确定性,让线下算力采购变得更不可控;


③ 运维工作量大,IT部门面临压力

面对数千台线下服务器,IT部门不得不耗费大量的人力开展基础运维,从机房电力、空调、安保,到硬件运维和维修,让一线的运维人员不堪重负;


④ 算力使用缺乏有效管控

为了节省算力和存储资源,IT部门需要采取配额限制、利用率监控统计等措施,督促研发人员及时释放资源,这一过程同样不令人愉快。

 

b.  客户对设计研发上云的担忧主要体现在四个方面:


① 数据的安全性

一款芯片的研发需要大量资金投入,因此客户对数据的安全性极度敏感。研发上云意味着数据离开原有的物理边界,怎样确保数据安全依然可控是客户考虑的底线问题;


② 性能满足要求

客户经过长期的调优能够将线下算力发挥到极致。由于对云计算不够了解,客户担心虚拟化、资源超卖等可能导致实际得到的算力资源无法达到与线下同等的性能,影响研发作业的运行效率;


③ 业务使用体验

研发人员在线下集群所建立的工作流和使用习惯,是否可以无缝迁移到云上,是上云项目成功推广的关键;


投入产出ROI

客户采购部门初步测算,云上购买算力,算上专线、安全等成本,相比线下采购机器没有价格优势。

 

二、阿里云EDA上云解决方案

 

1. 充分发挥公共云优势解决客户的业务挑战

首先,与客户原有的线下算力部署模式相比,阿里云提供的公共云方案能够完美解决算力不足、交付周期长、运维工作量大、以及缺乏管控的问题。

 

a.   在算力供给方面

  • 弹性算力供给:依托阿里云丰富的云上资源和供应链协调能力,可以提供给客户充足的供给保障;
  • 不受限于机房空间,充分的资源保障:阿里云在上海区域有多达12个可用区,提供弹性的计算、存储资源,客户无需再担心线下机房空间不足的问题;


b.   在交付周期方面

  • 分钟级交付:阿里云能够实现分钟级的资源交付;
  • 按需扩容、即开即用:在设计作业高峰阶段,客户可以按需扩容、即开即用,避免了原先设备采购、到货、安装部署的冗长链路;


c.   在运维管理方面

  • 基础设施免运维:云服务可以让IT部门从低效的基础运维工作中解放出来;
  • 统一控制台管理:运维人员通过统一的控制台可以方便对全量资源进行管理调度;
  • 自动化部署:对于运行环境、应用软件、调度器Agent等可实现一键自动化部署;


d.   在运行管控方面

  • 一体化资源监控:阿里云提供了一体化资源监控大盘;
  • 用量配额管理与监控:对于计算、存储等资源实现全天候不间断的用量监控;
  • 多维度性能分析:帮助运维人员开展精细化资源管控。

 

2. 通过定量分析和POC实测打消客户的上云疑虑

 

针对客户对上云的担忧,阿里云也通过POC测试、技术研讨、论证分析等方式,成功打消了客户内部各利益相关方的疑虑:


a.   在数据安全方面

  • 数据安全承诺:阿里云以正式合同的方式郑重承诺项目所设计的安全隐私条款,不碰客户数据;
  • 落盘加密方案:在技术层面上,提供用户自带秘钥上云和落盘加密的能力,确保数据的所有权牢牢掌握在客户手中;
  • 安全操作审计:阿里云提供安全操作审计的能力,客户通过工单可以要求审计阿里云对相关云资源的运维操作日志;


b.   在性能满足方面

  • 机型规格和性能参数对标:对标客户线下机型的规格和性能参数,采用了高主频、大内存和带有本地盘的裸金属服务器;
  • 三方工具压测:使用第三方压测工具对云实例的性能进行测试,实际压测表明,阿里云提供的计算存储性能完全能够与线下对标,部分测试项甚至优于线下,在开启落盘加密的情况下,云上实例的性能损失普遍在10%以内;


c.   在业务使用体验方面

  • 采用与线下一致作业调度器;
  • 采取与线下一致调度策略;
  • 最大程度适配研发人员使用习惯;


d.   在投入产出方面

  • 通过梳理和分析研发上云的总拥有成本TCO,阿里云所提供的云上弹性算力服务,能够节省线下机房建设、电力、运维等带来的隐性成本,能够降低因机器故障带来的风险成本,能够避免业务低峰期因机器限制带来的浪费成本,也能够改善业务高峰期因算力不足带来的机会成本;
  • 对于公司财务来说,按需购买云服务也能够将CAPEX投资变为OPEX费用从而改善公司的现金流。

 

3. 阿里云EDA上云方案介绍

 

基于EDA业务特点和需求,阿里云为客户量身定制了如下解决方案:(见下图)

 

图片3.png

 

图中左侧是客户线下机房,客户部署的是高性能计算集群,配合NetApp存储方案,作业调度采用业界普遍使用的IBM LSF调度器;右侧是阿里云华东二公共云地域的EDA专区,通过210GB的高速通道互联。

 

a.   机房位置

选择紧邻客户最近的机房位置,使得数据传输的时延控制在毫秒级;


b.   计算节点

按照要求提供了高主频、大内存的弹性裸金属服务器。裸金属服务器可以在物理上确保客户完全独占机器资源,从BIOS层面关闭超频和睿频,配合阿里云自主研发的MOC卡技术避免虚拟化损失,确保每一台裸金属服务器发挥出极致的计算性能;


c.   存储

采用并行文件系统CPFS,具备高性能、高扩展性和高可靠性的特点,单集群最大扩展至9620个存储节点、最大支持2.5TB/s吞吐;

d.   集群管理

采用阿里云E-HPC统一管控弹性裸金属计算节点,E-HPC的调度器插件可支持LSF agent的自动化部署,无缝衔接到E-HPC以提供对应的节点管理、作业管理、自动伸缩等能力。

 

三、阿里云EDA上云方案的特色亮点和优势

 

相比客户的线下物理机部署和其他厂商所提供的方案,阿里云EDA上云解决方案的优势体现在如下四个方面:


1、极致性能

阿里云为芯片设计行业专门打造的高主频、大内存裸金属服务器,通过实测性能表现优异,充分满足EDA软件对算力的极致要求;

2、可视架构

引入了阿里云业界首创的云速搭产品CADT来帮助客户创建和管理云上架构,它能够以可部署的架构图展示云上架构、清晰表达各基础产品组件的部署关系,降低客户方案设计和评估阶段的时间成本;

3、弹性部署

借助E-HPC灵活部署、弹性资源、统一运维的能力,让线上算力集群管理更加简单和高效;

4、安全合规

云上环境作为线下机房的延伸,由于没有公网出口,杜绝了外部攻击。云安全中心实时识别、分析、预警安全威胁,落盘加密可以作为数据保护的最后一道防线。

 

以上就是我今天的分享,谢谢大家。

 

相关文章
|
8天前
|
人工智能 分布式计算 监控
云应用开发平台CAP综合评测:优势与提升空间并存
随着云计算技术的发展,阿里云的云应用开发平台CAP成为开发者构建高效应用的重要工具。本文从CAP快速部署项目体验、空白项目创建体验及与同类产品对比三方面,深入分析其在云应用开发领域的表现,展示了CAP在模板选择、性能测试、二次开发等方面的优点与不足,提出了改进建议,旨在帮助开发者更好地利用CAP进行开发。
|
10天前
|
运维 监控 数据可视化
云应用开发平台CAP产品综合评测
云应用开发平台CAP旨在为开发者提供高效、便捷的云应用开发解决方案。本文从开发环境搭建、应用开发功能、应用部署与运维、数据管理与集成及性能评测等多个角度全面分析CAP,总结其快速开发、多云支持及社区生态等优势,同时也指出了功能深度、性能优化及文档培训等方面的不足,为开发者选择和使用CAP提供了参考。
|
5月前
|
搜索推荐 API 对象存储
|
5月前
|
分布式计算 搜索推荐 API
|
边缘计算
阿里云最新产品手册——阿里云核心产品——边缘节点服务ENS ——四大核心商业应用场景
阿里云最新产品手册——阿里云核心产品——边缘节点服务ENS ——四大核心商业应用场景自制脑图
125 1
|
前端开发 NoSQL Serverless
阿里云函数计算 FC 助力高德 RTA 广告投放系统架构升级
阿里云函数计算 FC 助力高德 RTA 广告投放系统架构升级
阿里云函数计算 FC 助力高德 RTA 广告投放系统架构升级
|
云计算
《阿里云产品手册2022-2023 版》——云计算改变了算力的生产和输出方式
《阿里云产品手册2022-2023 版》——云计算改变了算力的生产和输出方式
246 0
|
监控 架构师 安全
「业务架构」IX 业务能力分析权威指南
「业务架构」IX 业务能力分析权威指南
|
自然语言处理 达摩院
带你读《达摩院智能客服知识运营白皮书》——3.1 知识梳理的整体步骤
带你读《达摩院智能客服知识运营白皮书》——3.1 知识梳理的整体步骤
133 0