《并行计算的编程模型》一3.3 OpenSHMEM存储模型

简介: 本节书摘来华章计算机《并行计算的编程模型》一书中的第3章 ,第3.3节, [(美)帕万·巴拉吉(Pavan Balaji)编著;张云泉等译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 OpenSHMEM存储模型

OpenSHMEM是单程序、多数据(single program multiple data,SPMD)编程模型,特点是强调单边通信以及数据移动与同步解藕,是提供高性能、高可扩展性通信和同步程序的库。OpenSHMEM程序由松散同步的进程组成,这些进程也叫作处理单元(Processing Element,PE)。所有PE同时开始并执行相同的程序,通常在各自集合问题的子域上执行操作,并周期性地与其他PE通信。
OpenSHMEM内存模型是PGAS,类似于其他PGAS语言,例如统一并行C(见第4章)和Co-Array Fortran语言。OpenSHMEM模型将程序的执行分成PE,代表通信任务及相关的数据,类似与MPI列的概念。每个PE的数据空间又进一步分成只能本PE访问的“私有”内存和所有PE都能访问的“对称”内存。对称内存之所以这样命名是因为对各PE来说虽然其数据对象有独特的值,但其逻辑结构是相同的,这样的话只要简单指明远程PE和所要访问对称对象的局部地址即可远程访问对称内存的数据。
术语
首先需要以下一些定义以便支撑接下来的讨论。

  • 处理单元(Processing Element,PE):执行的通信线程。
  • 主动集(Active Set):参与某一特定操作的PE。
  • 对称内存(Symmetric Memory):对所有PE可见的内存集,包括静态分配的内存和用对称分配函数shmalloc()动态分配的内存。
  • 非对称内存(Asymmetric Memory):每个PE私有的内存,包括栈空间和通过其他方式(如malloc())动态分配的内存。
  • 主动端(Active Side):在单边通信中,产生API调用发起数据移动的一方。
  • 被动端(Passive Side):在单边通信中,没有产生与通信相关的API调用的一方。
  • 源(Source):被读取的内存位置。
  • 目标(Target):被更新的内存位置。
  • 放置(Put):远程写操作,将本地主动端的源数据拷贝到远程被动端目标地址。
  • 获取(Get):远程读操作,将远程被动端的源数据拷贝到本地主动端的目标地址。
  • 同步(Synchronization):保证两个或多个PE间的操作顺序或内存一致性。
  • 原子内存操作(Atomic memory operation):作为一个整体完成不受其他操作干扰的操作或操作块。
  • 归约(Reduction):作用于多个PE上原生数据类型的操作,例如查找最大最小值。
  • 集合通信(Collective communication):1对N、N对1或N对N通信(如1对所有广播)。
相关文章
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
139694 6
|
Web App开发 存储 缓存
RDMA优化整理(一)
简要的介绍了下RDMA的背景,并给出了一些RDMA编程优化技巧
4954 1
RDMA优化整理(一)
|
机器学习/深度学习 网络协议 异构计算
浅析GPU通信技术(下)-GPUDirect RDMA
目录 浅析GPU通信技术(上)-GPUDirect P2P 浅析GPU通信技术(中)-NVLink 浅析GPU通信技术(下)-GPUDirect RDMA 1. 背景         前两篇文章我们介绍的GPUDirect P2P和NVLink技术可以大大提升GPU服务器单机的GPU通信性...
29827 0
|
9月前
|
关系型数据库 分布式数据库 数据库
|
11月前
|
存储 机器学习/深度学习 缓存
vLLM 核心技术 PagedAttention 原理详解
本文系统梳理了 vLLM 核心技术 PagedAttention 的设计理念与实现机制。文章从 KV Cache 在推理中的关键作用与内存管理挑战切入,介绍了 vLLM 在请求调度、分布式执行及 GPU kernel 优化等方面的核心改进。PagedAttention 通过分页机制与动态映射,有效提升了显存利用率,使 vLLM 在保持低延迟的同时显著提升了吞吐能力。
6235 21
vLLM 核心技术 PagedAttention 原理详解
|
人工智能 算法 数据格式
DeepSeek 开源周第二弹!DeepEP:专为 MoE 训练和推理设计的并行通信库
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的通信库,支持高吞吐量、低延迟通信,优化 NVLink 和 RDMA 网络性能。
1539 3
|
11月前
|
搜索推荐
大模型训练常见通信源语解释
本文总结了在大模型分布式训练中常用的通信原语,包括一对多操作(Broadcast、Scatter)、多对一操作(Gather、Reduce)以及多对多操作(AllGather、AllReduce、ReduceScatter、All-To-All)。这些操作在模型并行和数据并行场景中起到关键作用,如参数初始化、数据切分与汇聚、规约运算等。通过详细介绍每种通信方式的功能与应用场景,帮助理解分布式训练中的数据交互机制。
1330 2
|
存储 机器学习/深度学习 并行计算
GPU通信互联技术:GPUDirect、NVLink与RDMA
在高性能计算和深度学习领域,GPU已成为关键工具。然而,随着模型复杂度和数据量的增加,单个GPU难以满足需求,多GPU甚至多服务器协同工作成为常态。本文探讨了三种主要的GPU通信互联技术:GPUDirect、NVLink和RDMA。GPUDirect通过绕过CPU实现GPU与设备直接通信;NVLink提供高速点对点连接和支持内存共享;RDMA则在网络层面实现直接内存访问,降低延迟。这些技术各有优势,适用于不同场景,为AI和高性能计算提供了强大支持。
|
存储 缓存 弹性计算
重新审视 CXL 时代下的分布式内存
从以太网到 RDMA 再到 CXL,标志着互连技术的重大突破。

热门文章

最新文章