《并行计算的编程模型》一3.2 设计理念和根据

简介: 本节书摘来华章计算机《并行计算的编程模型》一书中的第3章 ,第3.2节, [(美)帕万·巴拉吉(Pavan Balaji)编著;张云泉等译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2 设计理念和根据

SHMEM和OpenSHMEM的构思和发展都假设它们和底层硬件系统体系结构有密不可分的关系。由克雷研究公司开发和出售的克雷T3D和T3E计算机系统在其网络架构中包含几个高级的硬件加速特征,是与SHMEM合作设计的,用以最大化可用的带宽及最小化系统的3D Torus网络延迟[85]。克雷公司,即原来克雷研究公司的现代同名,在其最新的Gemini网络架构[86,90]中也延续了相同的设计理念。当1996年SGI收购了克雷研究公司,也同时获得了SHMEM的知识产权,SGI设计了NUMAlink体系架构[250]和共享存储的能力以最大化性能,SHMEM再一次成为开发这些的最佳API。两个公司仍继续关注于确保软硬件的高性能实现,也使SHMEM或OpenSHMEM API的能力得以发挥。
IBM在DARPA HPCS项目下开发了私有的网络设备Torrent [266]。Torrent的主要目标之一是对类似于OpenSHMEM的PGAS编程范型进行硬件加速。Torrent具有一些高级的网络加速特征,包括远程存储访问能力(remote memory access,RMA),共同加速单元(Collective Acceleration Unit,CAU),并支持丰富的原子内存操作集(atomic memory operations,AMOs)。AMO特征包括定点(NOP,SUM,MIN,MAX,OR,AND,XOR(有符号和无符号))和浮点(MIN,MAX,SUM,PROD(单精度和双精度))能力。这些特征使Torrent可以用MPI和OpenSHMEM一起来开发硬件全部的性能,并为PGAS语言提供了基础。图3-1描述了IBM Torrent网络芯片,是系统的计算或存储元件及环境的网络部分可能的一种典型集成方式。对超大规模系统(百亿亿次)来说这很必要,以便将网络和存储以及处理能力放在同等位置,这能提高能力和带宽,并降低延迟,也会对所有PGAS类型的编程模型产生积极的影响。

screenshot

直到现在,这些能力和集成等级只存在于来自如克雷、SGI和IBM的具有大量私有网络投资的高端系统中。但在2011年,Mellanox [188]和HP在橡树岭国家实验室超大规模系统中心的指导下,宣布对OpenSHMEM API以及使该模型充分生效的许多关键底层硬件特征的支持。虽然这种合作设计的重心聚焦于对OpenSHMEM加速的支持,但这也会使其他PGAS编程模型成为可能。这也是商用网络第一次设计实现包含支持OpenSHMEM基本要素的硬件、固件及系统软件。除了在私有和商用网络的进步,笔者也见过将OpenSHMEM API的能力嵌入FPGA的项目[267]。这些轻量级的实现将开发那些部署在未来超大规模系统中的硬件性能。对目前在千兆及未来千兆兆操作的系统所承载的工作量来说,将网络提升到“一等公民”的位置很重要。

相关文章
|
运维 安全 Cloud Native
国产Linux:OpenEuler能否完美替代CentOS系统?
本文讨论了OpenEuler系统作为替代CentOS的一个有潜力的选择。OpenEuler系统是一种基于开源技术和社区支持的Linux发行版,具有许多优势,如安全性、高度可定制性、强大的社区支持、容器和云原生生态系统集成以及持续更新等。与CentOS相比,OpenEuler系统提供更多的灵活性和可定制性,适用于各种用途和工作负载。但在选择OpenEuler系统时,用户需要进行仔细评估并考虑其适用性和可行性。
|
机器学习/深度学习 Web App开发 编解码
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
|
机器学习/深度学习 PyTorch 调度
内部干货 | 基于华为昇腾910B算力卡的大模型部署和调优-课程讲义
近日上海,TsingtaoAI为某央企智算中心交付华为昇腾910B算力卡的大模型部署和调优课程。课程深入讲解如何在昇腾NPU上高效地训练、调优和部署PyTorch与Transformer模型,并结合实际应用场景,探索如何优化和迁移模型至昇腾NPU平台。课程涵盖从模型预训练、微调、推理与评估,到性能对比、算子适配、模型调优等一系列关键技术,帮助学员深入理解昇腾NPU的优势及其与主流深度学习框架(如PyTorch、Deepspeed、MindSpore)的结合应用。
5512 13
|
网络协议 网络架构
TCP/IP协议架构:四层模型详解
在网络通信的世界里,TCP/IP协议栈是构建现代互联网的基础。本文将深入探讨TCP/IP协议涉及的四层架构,以及每一层的关键功能和作用。
2955 5
|
存储 安全 Linux
Linux权限之谜:一步步教你如何解锁sudo权限并窥视/etc/shadow的神秘面纱!
【8月更文挑战第22天】在Linux中,`sudo`命令让授权用户能以其他用户(通常是root)身份运行命令。关键的安全文件`/etc/shadow`存储用户密码哈希,仅root可读。要使用`sudo`,需确保账户被列入`sudoers`文件中。系统管理员可通过`visudo`编辑此文件来赋予用户权限,例如添加`username ALL=(ALL) NOPASSWD: ALL`行。获得`sudo`权限后,可运行`sudo cat /etc/shadow`查看文件内容,但需谨慎操作以免影响系统安全。遵循最小权限原则,确保安全使用这些强大工具。
1180 2
|
存储 SDN 数据中心
|
传感器 网络协议 网络架构
计算机网络基础教程:拓扑
【4月更文挑战第5天】
2179 9
 计算机网络基础教程:拓扑

热门文章

最新文章