“小芯片 大集成” 从软硬协同看Chiplet生态——ISCA 2022-HiPChips研讨会组织观察记

简介: ISCA 2022-HiPChips研讨会组织观察记

首图-图标.png

【阅读原文】戳:“小芯片 大集成” 从软硬协同看Chiplet生态——ISCA 2022-HiPChips研讨会组织观察记


文:张伟丰


注:本文图片版权归属HiPChips Conference


近日,国际计算机架构顶会International Symposium on Computer Architecture(ISCA)2022在纽约举行。阿里云基础设施异构计算团队张伟丰博士、华盛顿大学Michael Taylor教授和开放计算基金会(Open Compute Project Foundation, OCP)Dharmesh Jani等专家在此次峰会上共同发起了“高性能Chiplet与互联架构国际研讨会”(International workshop on High Performance Chiplet and Interconnect Architectures,以下简称 HiPChips),旨在探讨小芯片Chiplet和互联技术对未来计算架构的影响,从而推动工业和学术界加速合作、共建Chiplet生态。


图片1.png


此次HiPChips也是国际上以“小芯片”为主题的研讨会首次登上计算机架构顶会的舞台,因而吸引了包括Google、Meta(Facebook)、Intel、AMD、Nvidia、苏黎世联邦理工(ETH Zurich)、伊利诺伊大学(UIUC)、加州大学洛杉矶(UCLA)、佐治亚理工(Georgia Tech)和印度理工(IIT Bombay) 等领域内顶尖行业专家和学者的参与,议题也广泛覆盖了chiplet架构、芯片设计、互联标准化等最前沿的研究和进展。


其中,来自ETH Zurich的Onur Mutlu教授、谷歌Cliff Young、AMD Sr. Fellow Raja Swaminathan /John Wuu、以及 Intel 副总裁 Bob Brennan分别做了主题演讲。


图片2.png

会议链接:https://www.iscaconf.org/isca2022/program/workshops.php



01 为什么推chiplet?


随着高性能计算、图形计算、人工智能等领域的爆发性增长,当前的计算架构早已无法满足指数级攀升的算力需求。然而计算技术本身却面临着更加严峻的挑战,包括日益趋缓的摩尔定律、越来越高的芯片制造成本、以及晶片尺寸的物理限制等。通过把wafer晶圆切分成颗粒度更细的小芯片,不仅可提升制造工艺收益率(降低芯片报废概率)、实现不同工艺芯片的混合封装(简化设计流程和降低成本),而且可以针对不同的计算要求实现更灵活的架构定制化和算力的大规模扩展


↓↓一图看懂小芯片↓↓

2-AMD Chiplet技术.jpg


然而,使能小芯片架构并不是免费的。除了各种封装和堆叠技术外,也要解决小芯片之间通讯的面积和功耗开销,以及如何让小芯片之间协同工作、集成验证和优化、建立稳定软硬件生态等操作层面的实际问题。



02 Chiplet 和互联架构


随着互联协议和集成技术的发展,以芯片上高密度互联基础设施和已知良片(KGD)为基础,晶圆级计算似乎正蓄势待发。


来自伊利诺伊大学的Dr. Kumar教授讲解了基于chiplet晶圆级别计算架构的最新研究成果,涵盖大计算架构、互联拓扑、散热、供电等关键技术,实现了容纳40个GPUs模块的超大处理器。相比多芯模块GPU架构,可以提升5倍以上性能和22倍EDP(能量延迟积)。


与工业界Cerebras和马斯克的Tesla Dojo相比,UIUC的研究支持更大容量的内存和更低的片间延迟,对异构小芯片架构也更友好。加州大学洛杉矶(UCLA)作为合作伙伴在芯片高密度集成和供电技术上做出了重要贡献。两所大学的研究成果为超大芯片的协同设计提供了新的视角。不过Kumar教授也坦承,晶圆级别计算在工艺和落地场景上还是有不少限制,2~3年之内很难有大规模生产的可能


Intel介绍了光互联芯片Optical Compute Interconnect, OCI)在高性能计算HPC和AI加速系统领域的优势,不仅大幅提升了数据传输带宽(1 Tbps per fiber)和通信距离(> 100m),而且能够较好的降低通讯能耗(3pJ/b,比PCIe6好了30%)和延迟(10ns)。基于OCI的互联技术为计算架构的可组合、可扩展、以及内存池化等场景设计带来巨大机会。


同时,Intel 另一主题演讲提到Chiplet时代所需要的一些关键技术,并展示了chiplet在Lakefield CPU (3D Foveros) 和HPC芯片(Ponte Vecchio)、multi-core uServer以及IPU/DPU 中的应用。


AMD的主题演讲中分享了AMD 在小芯片架构上的长征之路。其 Zen3 CPU利用小芯片扩展了L3 V-Cache,从32MB到(32MB+64MB),总体实现了15% 性能提升。L3 V-Cache也在 AMD第三代EPYC服务器和Ryzen 7 桌面CPU中得到应用。代表开放计算基金会(OCP)HPC工作组的Allan Cantle则从架构可持续性发展以及领域专用加速器DSA的角度,讨论如何利用封装外部的小芯片技术重新定义计算架构边界、从而实现可组合的高性能计算(HPC)架构。


3-3D V-cache.jpg


小芯片技术促成了片上异构计算的可能性,因而给新颖的架构设计创造更大的空间。来自亚利桑那州立大学(ASU)的研究者提出了类似ARM big.little配置的存内计算架构 (IMC)。相对于GPU等加速器,该架构为 DNN 模型提升了10倍性能和~100倍的功耗效率。




03 Chiplet 架构设计


显然,除了架构和互联技术,chiplet这个方向也带动了芯片工艺设计和封装技术中多个子领域的发展。本次会议的分享内容也涵盖了:


1)EDA自动化工具支撑多个互联协议(BoW, OHBI, Ultra-Link, UCIe);

2)改善互联接口布线密度、减少层间cross- talk、增加可扩展并行性;

3)先进封装技术的小芯片成本模型;

4)异构集成的质量和可靠性分析等前沿研究。


佐治亚理工(Georgia Tech)研究者带来了5.5D Glass Interposer集成技术,即2.5D interposer+3D flipped/embedded chiplet stack。相比于传统的3D集成,5.5D集成实现了更低价的解决方案和更好的PPA。


来自加州大学·伯克利的初创公司(JITX)通过Chisel 语言和软件定义方案,实现了小芯片、封装、和板卡的系统设计和集成优化工具。其系统设计中间表示(ESIR)和chiplet编译器,让小芯片系统的自动验证和优化更加高效和便捷。


4-JITX.jpg



04 Chiplet 标准化和软硬件生态


Chiplet的健康发展需要小芯片互操作 (inter-operability)标准和规范化。这无论对大厂还是小厂来说都是有益的,不仅可发挥百家之长,也能让小芯片用户承担得起成本。历史上,美国DARPA和日本MITI政府性部门通过标准和规范都曾大大加快了先进技术的发展。


谷歌在《Universal Chiplet Solution》主题演讲中提出了小芯片互联的数据面物理层、链接层和协议层和控制面管理、安全、测试等开源标准。同时OCP的开放领域专用芯片架构工作组(ODSA)也致力于解决领域专用架构和芯片互联私家协议之间的互操作,使能不同厂商的小芯片设计和集成并帮助建立统一市场。


ODSA的接口协议(BOW)定义了开放式PHY规范来支持D2D并行接口,对现有封装和先进的封装技术可以达到1T和5T的传输速度。目前已经有7家公司支持BOW的IP,有超过4家公司正在开发基于BOW的产品。ODSA也通过组织会员的共同努力,开始了BOW测试芯片的流片和原型系统。除了BOW接口协议外,最新的UCIe互联工业组织自成立以后立即呈现众星捧月、蒸蒸日上之势。ODSA在2022年的一个目标就是和UCIe合作,形成互补关系。


在软件生态层面,阿里云分享了震旦异构计算开放平台HALO/ODLA)。为了使能片上异构的多处理器并行计算,需要更加轻量级的计算框架。同时针对片上互联接近于零的通讯延迟,计算框架也需要研发有别于传统优化的新颖策略。震旦因其可裁剪可扩展的轻量级接口、极简的内存足迹、和内禀的异构并行支持,非常适宜作为小芯片加速系统的软硬协同计算平台。震旦平台也获得了包括Intel、UIUC等研究者的认可。


5-阿里云HALO.jpg


为了追求数据中心的可持续发展,Meta(Facebook) 研究者提出了基于chiplet的计算架构和碳足迹评估模型。我也和该项目负责人探讨了阿里巴巴和Meta未来在碳中和领域合作的可能性。



05 结语


HiPChips小芯片研讨会在ISCA-2022上实现了一个非常重要的里程碑,也得到了广大生态伙伴的积极响应。此次会议的目的之一就是希望通过理解小芯片系统的关键技术挑战和机遇,从而推动芯片领域相关产业链生态伙伴共同构建统一的生态系统


通过与会者的研究、实践和分享帮助建立一个较为清晰的技术大图,明确当前小芯片的发展状态和未来的技术重心,同时也为工业和学术界的顶尖研究人员和专家提供一个密切合作的平台。


基于小芯片的计算架构正在演进成为一个计算架构发展的大趋势,我们相信它将为阿里云数据中心的未来计算技术在性能、功耗、可扩展性、可持续性等诸多层面带来巨大优势。本届研讨会也再次呈现了阿里云在AI软硬件生态领域的领导力和对社区的积极贡献,我们相信它也会对阿里云在相关生态领域的合作产生更加深远的品牌影响力。未来,阿里云将继续深化同计算技术社区的合作,共同探索未来AI 软硬协同设计的技术方向。



作者介绍张伟丰博士,阿里巴巴集团研究员,现任阿里云基础设施事业部异构计算负责人,负责阿里云AI异构硬件加速、软硬协同设计、AI编译、和大规模异构资源池化加速等技术产品研发工作。张伟丰博士毕业于美国加州大学·圣地亚哥(UCSD)计算机专业,并在计算机架构和AI领域发表过多篇顶会和顶级期刊论文(ISCA、HPCA、PPoPP、AAAI、ICLR 、FPGA、PACT、CGO、IEEE TC等)。曾作为加州大学·圣地亚哥的兼职教授,负责制作和讲授高年级本科生《编译器构建》课程。


伟丰代表阿里巴巴担任开放计算基金会(OCP)软硬协同设计工作组(AI Co-design workgroup)技术主席,负责开放计算系统(领域专用加速架构ODSA、小芯片互联协议标准BoW/OHBI、以及用户场景等)生态对接和标准化支持。同时,伟丰也代表阿里巴巴任权威AI基准测试组织MLCommons董事会成员,屡次带领团队获得MLperf 推理性能榜单多个领域第一的好成绩。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
7月前
|
关系型数据库 分布式数据库 数据库
成都晨云信息技术完成阿里云PolarDB数据库产品生态集成认证
近日,成都晨云信息技术有限责任公司(以下简称晨云信息)与阿里云PolarDB PostgreSQL版数据库产品展开产品集成认证。测试结果表明,晨云信息旗下晨云-站群管理系统(V1.0)与阿里云以下产品:开源云原生数据库PolarDB PostgreSQL版(V11),完全满足产品兼容认证要求,兼容性良好,系统运行稳定。
|
5月前
|
消息中间件 监控 Kafka
AutoMQ 生态集成 Redpanda Console
今天分享的内容是如何通过 Redpanda Console对 AutoMQ 集群状态进行监控,以提高系统的可维护性和稳定性。
64 2
AutoMQ 生态集成 Redpanda Console
|
5月前
|
监控 关系型数据库 分布式数据库
PolarDB开源项目成熟,强调插件开发与第三方工具集成,打造丰富生态。
【7月更文挑战第3天】PolarDB开源项目成熟,强调插件开发与第三方工具集成,打造丰富生态。插件开发涉及需求分析、接口设计、编码、测试和文档撰写。示例展示了性能监控插件的Go代码实现。此外,与DMS的数据迁移工具及Prometheus+Grafana监控系统的集成示例,展示了其易用性。PolarDB通过开放接口鼓励开发者参与生态建设,共同推动数据库技术进步。
73 1
|
5月前
|
关系型数据库 分布式数据库 数据库
粤腾通信「粤腾DCIM」通过PolarDB产品生态集成认证!
近日广州粤腾通信科技有限公司「粤腾DCIM系统软件V2.0」通过PolarDB产品生态集成认证!
|
6月前
|
存储 消息中间件 Cloud Native
AutoMQ 生态集成 CubeFS
立方体文件系统(CubeFS)是一个云原生存储解决方案,现为CNCF孵化项目,支持S3、POSIX、HDFS等协议,提供多租户、多AZ部署和跨区域复制等功能,适用于大数据、AI、容器平台等场景。要部署AutoMQ集群,需先准备CubeFS集群,启用对象网关,创建用户并配置S3接口,然后创建Bucket。接着,下载AutoMQ二进制包,使用S3 URL生成器配置并启动集群,确保所有主机在同一网络并配置正确端口。启动时,先启动控制器,再启动Broker节点。注意,部署在私有数据中心时,需考虑SSD的可靠性,可能需要RAID配置。
114 4
|
7月前
|
消息中间件 JSON Kafka
AutoMQ 生态集成 Apache Doris
Apache Doris 是一个高性能的分析型数据库,以其亚秒级查询响应和对复杂分析的支持而知名。它适合报表分析、即席查询等场景,能从 AutoMQ 通过 Routine Load 导入 Kafka 主题数据。本文详述了如何配置 Doris 环境,创建测试数据,以及设置 Routine Load 作业从 AutoMQ 导入 JSON 数据到 Doris 表的过程。最后,文中展示了验证数据成功导入的方法。Apache Doris 提供了低成本、高弹性的数据处理解决方案,其团队由 Apache RocketMQ 和 Linux LVS 的核心成员组成。
68 0
|
7月前
|
监控 关系型数据库 分布式数据库
【PolarDB开源】PolarDB开源生态构建:插件开发与第三方工具集成
【5月更文挑战第23天】PolarDB开源项目成熟,生态成为开发者关注点。其插件机制和接口设计允许添加自定义功能,无需修改核心代码,促进扩展建设。本文涵盖插件开发流程和第三方工具集成实践,如性能监控插件示例和数据迁移工具、监控系统集成。PolarDB通过开放生态与标准化接口,激发开发者潜力,共同推动数据库技术创新。
104 0
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
数据库性能诊断工具DBdoctor通过阿里云PolarDB产品生态集成认证
DBdoctor(V3.1.0)成功通过阿里云PolarDB分布式版(V2.3)集成认证,展现优秀兼容性和稳定性。此工具是聚好看科技的内核级数据库性能诊断产品,运用eBPF技术诊断SQL执行,提供智能巡检、根因分析和优化建议。最新版V3.1.1增加了对PolarDB-X和OceanBase的支持,以及基于cost的索引诊断功能。PolarDB-X是阿里巴巴的高性能云原生分布式数据库,兼容MySQL生态。用户可通过提供的下载地址、在线试用链接和部署指南体验DBdoctor。
393 0
|
7月前
|
SQL 机器学习/深度学习 数据可视化
Pandas与其他库的集成:构建强大的数据处理生态
【4月更文挑战第16天】Pandas在数据处理中扮演关键角色,但与其他Python库如NumPy、Matplotlib/Seaborn、Scikit-learn和SQL的集成使其功能更加强大。结合NumPy进行数值计算,搭配Matplotlib/Seaborn实现高效可视化,与Scikit-learn联用加速机器学习,以及与SQL集成便于数据库操作,这些都构建了一个全面的数据处理生态系统,提升了数据科学家的工作效率,助力于数据价值的发掘。
|
7月前
|
SQL 分布式计算 Apache
生态 | Apache Hudi集成Apache Zeppelin
生态 | Apache Hudi集成Apache Zeppelin
61 0