导语:2022年9月20日,“阿里云EDA上云解决方案”节目正式上线,三位来自阿里云的专家从多个角度带大家了解阿里云如何助力芯片设计驶入“云端高速路”。首位带来分享的嘉宾是阿里云弹性计算产品解决方案架构师劭奇,他带来了题为《灵活、安全、高性能:阿里云EDA上云解决方案》的主题分享,以下是他的演讲内容整理,供阅览:
01 行业综述
1. 典型芯片设计的算力挑战
典型芯片设计的算力挑战主要体现在三个方面:
◾ 增长快:芯片制程提升导致算力大幅度增长,EDA仿真工具所要消耗的计算资源也在大幅提升;
◾ 算不准:商业软件无法预估算力需求,导致预算偏差;
◾ 项目急:流片时间无法推迟,开发进度不可控,项目受各方面影响大。
下面是一款芯片在开发过程中可能会受到的典型算力挑战:
在芯片设计之初,将仿真的预算设定在1万核规模,其中前端3000核,后端7000核;随着前端进入到作业阶段,发现前端的需求已经达到了7000核,超过了原有的预计,开始挪用原用于后端的预算;等后端任务进入到作业阶段时,算力出现不足,研发等待仿真结果;项目落后于计划,项目组开始追加预算进行采购;当后端任务持续进行,部分bug可能会导致重新进行前端验证任务,算力进一步紧张;随着芯片流片完成,大部分算力释放,设备进入闲置状态。
如上图所示,整个芯片的研发过程中会出现算力的高峰和低谷,芯片仿真业务存在着明显的资源弹性诉求。
2. 集成电路行业的痛点分析
(1) 时间
◾ EDA验证需要大量时间,资源不足会导致验证工作无法收敛;
◾ 硬件设备采购周期长,部署建设耗费大量时间;
(2) 成本
◾ 任务具有明显的波峰特性,长期持有大量硬件成本较高;
◾ 如何准确测算项目成本,特别是IT资源占用所带来的成本分析;
◾ 初创公司需要将更多资金用于license和IP采购;
(3) 安全
◾ 架构设计主要用word实现,容易外泄;
◾ 数据交付复杂且体量巨大,授权审核环节众多,管控存在漏洞;
(4) 多地协同
◾ 多地域办公协同;
◾ 居家办公环境和安全管控。
02 EDA上云方案
1. EDA上云价值
(1) 提高生产力(加速TTM)
◾ 按需扩容、弹性伸缩:为峰值业务提供云上弹性扩展的资源,避免因资源超用而影响生产;
◾ 资源申请分钟级交付:资源申请无需等待采购、立项、安装部署等复杂的流程,资源即开即用,无需排期等待;
(2) 降低IT运维、运营难度
◾ 从基础运维中解脱:IT运维部门无需担心物理设施和底层运维的问题,把更多精力聚焦在业务支持;
◾ 自动化资源交付:借助自动化交付工具,为业务方提供全链路资源交付;
◾ 资源集中管控:集中运维和管控工具,实现资源监控,支持账单按项目分拆;
(3) 成本优化(提升RIO)
◾ 供给精确匹配需求:资源线性扩容/缩容,避免资源不必要的浪费;
◾ 配套费用节省:省去机房、空调、硬件维保等配套费用的投入;
◾ 资金成本优化:付费模式灵活,省去资金占用成本;
(4) 提升使用体验
◾ 团队协同:优化多地协同工作效率,减少不同团队及不同任务之间的资源挤占;
◾ 透明无感的使用体验:通过统一的开发环境,为业务方提供随时可用的资源。
2. EDA设计全流程云上架构
通过阿里云云安全,构建统一的安全管控域:
前端设计部门(图右上国内设计分支)通过阿里云无影云桌面实现研发办公安全诉求,将无影部署在单独的安全域和VPC中,从而保证前端任务与其他部门隔离,达到数据不落地,数据无法带走的目标;对于后端仿真验证集群(图左绿色部分),使用阿里云E-HPC产品纳管计算和高性能分布式存储,实现高性能的超算环境;通过阿里云高速通道连接云下IDC资源(图左下),实现云上云下混合云,轻松打通云上云下数据,将数据中心扩展到云上,实现云上弹性算力;通过阿里云云企业网产品CEN帮助集成电路公司实现全球分支机构的高速互联,从而打造一套数据互通,办公协同的企业专网。
3. 构建从基础侧到数据侧的全面安全环境
阿里云提供全面的安全防护能力,从网络侧到数据侧提供相应的安全产品,包括堡垒机、数据审计功能、硬件加密机等,帮助客户打造坚实的屏障。
EDA上云所使用的存储产品CPFS和OSS等均具备落盘加密能力,可提供最高等级的数据加密保障服务,为客户打造安全稳定的云上数据存储空间。
(1) 网络侧
◾ 高防IP,进行DDOS攻击清洗;
◾ 云防火墙,进行入侵防护及流量管控;
(2) 客户端
◾ SASE,进行终端安全管控及数据DLP管理;
(3) 主机侧
◾ 云安全中心,进行服务端主机入侵防护、基线检查、补丁管理;
(4) 账号
◾ IDP,集成AD域账号,并统一账号管理,提升不同系统跳转易用性;
(5) 审计
◾ ActionTrail;
◾ 数据库审计;
◾ 堡垒机,虚拟机运维管理录屏录像,日志留存;
(6) 数据安全
◾ 数据落盘加密:加密机,进行云上数据硬件加解密能力,对敏感数据进行加密存储与使用;
◾ KMS,云上密钥生命周期管理,云上透明加解密能力;
◾ 数据安全中心,针对OSS及数据库进行数据分类及数据保护。
4. 云上快速搭建E-HPC集群
◾ E-HPC可以提供一整套超算PaaS产品,通过图形化界面实现快速搭建;
◾ E-HPC可以提供登录与管理节点、图形节点,实现域控和作业后出图能力;
◾ E-HPC可以云原生提供各类开源调度器调用,在商业调度器需求上,也能够提供商业调度器的接口,沿袭线下使用习惯;
◾ E-HPC产品可以自动完成跨可用区的集群搭建,将多个数据中心的资源整合利用,提升弹性调度能力。
5. 基于E-HPC的弹性伸缩,自动匹配业务峰值需求
E-HPC可以和调度器实现联动,基于负载和调度器策略实现自动弹性扩缩容。
◾ 弹性扩容的计算节点具备自动挂载共享存储和加入域能力,能够实现自动接收调度器调度作业,提高效率;
◾ 在作业完成后,E-HPC能够根据预先配置的资源规则实现按需资源释放,节省使用成本,为客户提供按需弹性伸缩的环境。
6. 构建多种类型的混合云架构
基于E-HPC的强大兼容能力,可以提供多种混合云架构。
方案1:云下管控为主,云上弹性扩容为辅
大部分半导体公司具有线下机房和设备,并且已经完成了管控的部署和调试,因此阿里云可以提供一个以云下管控为主,云上资源弹性的EDA混合云方案,该方案兼容原有使用习惯,并在多个业内客户生产环境中部署,是EDA混合云的最佳实践。
◾ 应用场景:本地建设为主,云上为满足突发业务需求;
◾ 集群管理:云下为主,云下队列负载达到阈值,调用云上资源。云上proxy manager将扩容资源信息同步到云下manager,通过云下脚本写入本地域控;
◾ 安全边界:云上不设出口,本地安全为主;
◾ License部署:license服务器部署在线下,授权云上节点使用;
方案2:云上管控为主,纳管线下资源
对于部分云原生的半导体公司,推荐使用方案2混合云架构,即云上管控为主,通过E-HPC管控平台纳管云下的资源,保障原有设备不浪费。
◾ 应用场景:本地机房不再扩容,后续以云上建设为主;
◾ 共享存储:云上为主;
◾ 安全边界:云上安全管控为主,本地不设出口;
◾ 调度器部署:调度器部署在线上,通过加载agent实现云上云下混合云调度;
◾ License部署:license服务器部署在线下,授权云上节点使用。
03 EDA上云推荐产品
1. 云上高性能计算产品——弹性计算实例介绍
阿里云使用行业领先的硬件解决方案,基于最新的硬件适配优化;同时阿里云全面支持一云多芯能力,可提供Intel、AMD和ARM等多种CPU。
◾ 针对前端业务,阿里云提供了多种高主频大内存的实例规格,这些实例规格基于神龙架构,提供高可靠性和超强的性能;
◾ 针对后端业务,阿里云提供了超大内存的裸金属产品,特别是针对超过2T以上的需求场景,提供基于持久化内存的实例产品,这些实例可以显著提升单机内存容量,降低采购成本,提升服务器在后端作业的并发效率。
2. 云上高性能存储产品——CPFS介绍
◾ 阿里云文件存储CPFS,是一个专为实现高性能计算的大规模并行文件系统,全并行架构,百万IOPS和OPS,Tbps级吞吐;
◾ 支持Fileset,可在Fileset上使用多种企业级功能,包括:快照、配额、数据流动、生命周期、QoS等;
◾ 支持ACL、文件审计、加密等企业级功能;
◾ 支持数据流动功能,让CPFS成为OSS数据的高性能加速器,应用可以方便的通过CPFS的高性能文件接口访问OSS中的海量低成本数据;
3. 多站点安全研发环境——无影产品介绍
阿里云无影产品针对多站点和居家、出差研发等场景,提供了无影进入能力。
(1) 保障代码安全
◾ 代码不落地;
◾ 操作日志;
◾ 录屏审计;
◾ 病毒漏洞扫描;
(2) 提高开发效率
◾ 快速搭建开发环境;
◾ 预装/分发开发工具;
◾ 提供高效的管理控制台;
(3) 数据安全高效流转
◾ 桌面、开发、生产均在云内传输,更加高效安全;
◾ 多地多国办公环境一体化;
◾ 居家办公安全可靠;
无论用户身在何处,无影产品都能提供统一的研发环境,打造统一的安全防控和管控要求,从而为EDA行业提供最好的研发、数据、资源和安全保障。我的分享就到这里,谢谢大家。