《OpenACC并行程序设计:性能优化实践指南》一 导读

简介: 这是一本关于并行编程的书,不仅仅介绍OpenACC语法或从文档中收集的信息,更介绍了如何编写实际的、高性能的以及可移植的程序,这些程序可以运行在从CPU到GPU的大量设备上。具体而言,书中演示了使用PGI、Cray和PathScale等供应商提供的编译器编译示例代码,并在Intel x86处理器、Cavium 96核64位ARMv8处理器芯片集和NVIDIA GPU上运行。

1d724e92f908b6db9b042bcd03aaad69d70129d8

前言

欢迎阅读本书,这是一本由浅入深的书籍,从初学者到高级开发人员,都可以通过本书了解OpenACC的相关知识。本书由世界各地的24位作者共同编著而成,他们在高度并行编程的教学和实践方面分享了自己的专业知识。书中的例子既有时效性又不会过时。每个章节都是自包含的,可用于自学,也可以作为课堂教学的一部分。

这是一本关于并行编程的书,不仅仅介绍OpenACC语法或从文档中收集的信息,更介绍了如何编写实际的、高性能的以及可移植的程序,这些程序可以运行在从CPU到GPU的大量设备上。具体而言,书中演示了使用PGI、Cray和PathScale等供应商提供的编译器编译示例代码,并在Intel x86处理器、Cavium 96核64位ARMv8处理器芯片集和NVIDIA GPU上运行。
性能和分析相辅相成,这也是为什么我们将开源代码和PGI分析器都包含在内。
自从2012年6月11日我第一次在Dr. Dobbs网站上看到“Easy GPU Parallelism with OpenACC”以来,OpenACC标准逐步升级,编译器技术逐渐成熟,发展速度令人惊讶。过去几年的突飞猛进意味着我们现在可以在大多数HPC站点上使用OpenACC,甚至免费提供的GNU编译器工具集也支持OpenACC。我们选择在中级和高级编程章节中提供实际应用示例,以方便读者实践,这是因为程序员需要解决实际问题,而不是解决课堂问题。同时,OpenACC还是一个很新的并行编程标准,书中的几个介绍性章节非常值得一读!

目录

第1章 从串行编程到并行编程
1.1 简单的数据并行循环
1.1.1 OpenACC内核构件与并行构件对比
1.1.2 OpenACC并行的多种形式
1.1.3 accFill_ex2运行时结果
1.2 简单的任务并行示例
1.3 Amdahl定律及其扩展
1.3.1 大O表示法和数据传输
1.3.2 accTask.cpp代码的扩展性
1.4 并行执行和竞争条件
1.5 无锁编程
1.6 控制并行资源
1.7 让生活更简单
1.8 参考文献

第2章 性能导向开发
2.1 测试代码:共轭梯度法
2.1.1 代码编译
2.1.2 初始测试
2.2 描述并行度
2.2.1 加速waxpby
2.2.2 加速dot
2.2.3 加速matvec
2.3 描述数据移动
2.4 优化循环
2.4.1 缩短向量长度
2.4.2 增加并行度
2.5 在多核系统中并行运行
2.6 小结

第3章 使用Score-P和Vampir分析混合应用性能
3.1 性能分析技术和术语
3.2 逐步性能提升
3.3 激光驱动电子束的粒子单元模拟
3.4 通过代码插装准备性能测量
3.5 在应用程序执行期间记录性能信息
3.6 第一个并行PIConGPU实现
3.7 释放主机进程
3.8 优化GPU内核
3.9 增加GPU任务并行
3.10 使用Score-P和Vampir记录OpenACC运行时事件
3.11 小结
3.12 参考文献

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
Unix 异构计算 Windows
带你读《基于CUDA的GPU并行程序开发指南》之一:CPU并行编程概述
本书旨在帮助读者了解与基于CUDA的并行编程技术有关的基本概念,并掌握实用c语言进行GPU高性能编程的相关技巧。本书第一部分通过CPU多线程编程解释了并行计算,使得没有太多并行计算基础的读者也能毫无阻碍地进入CUDA天地;第二部分重点介绍了基于CUDA的GPU大规模并行程序的开发与实现,并通过大量的性能分析帮助读者理解如何开发一个好的GPU并行程序以及GPU架构对程序性能的影响;本书的第三部分介绍了一些常用的CUDA库。
|
C# C++
创建目标类型对象在C#7.3中不可用,请使用9.0或更高的语言版本
创建目标类型对象在C#7.3中不可用,请使用9.0或更高的语言版本
2784 0
创建目标类型对象在C#7.3中不可用,请使用9.0或更高的语言版本
成功解决FileNotFoundError: [WinError 2] 系统找不到指定的文件
成功解决FileNotFoundError: [WinError 2] 系统找不到指定的文件。
成功解决FileNotFoundError: [WinError 2] 系统找不到指定的文件
|
算法 vr&ar 计算机视觉
数据结构之洪水填充算法(DFS)
洪水填充算法是一种基于深度优先搜索(DFS)的图像处理技术,主要用于区域填充和图像分割。通过递归或栈的方式探索图像中的连通区域并进行颜色替换。本文介绍了算法的基本原理、数据结构设计(如链表和栈)、核心代码实现及应用实例,展示了算法在图像编辑等领域的高效性和灵活性。同时,文中也讨论了算法的优缺点,如实现简单但可能存在堆栈溢出的风险等。
771 0
|
网络协议 安全
QT多线程
本文详细介绍了在Qt中如何正确使用QThread以及信号槽跨线程的使用方式,包括线程的正确退出方法和QObject在不同线程中创建子对象时可能遇到的问题。同时,文章还提供了相关博客和资料的链接,用于进一步学习和参考。
410 3
|
前端开发 Java 程序员
SpringBoot统一功能处理,拦截器,统一数据格式,捕捉异常
SpringBoot统一功能处理,拦截器,统一数据格式,捕捉异常
|
消息中间件 设计模式 SQL
如何成为架构师?
总结这些年在支付宝做架构的经验,把自己摸索成长的内容写下来,从对架构师的认知到业务能力和架构能力多方面总结了案例经验,希望可以帮助到大家。
14714 28
|
资源调度 调度
[已解决]问题:root.users.hdfs is not a leaf queue
[已解决]问题:root.users.hdfs is not a leaf queue
349 0
|
SQL 弹性计算 分布式计算
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
2023年9月14日,系列课程第八节《基于ECS倚天实例的大数据加速最佳实践》正式播出,阿里云弹性计算大数据优化负责人李腾飞主讲,内容涵盖倚天大数据场景迁移适配、倚天大数据性能加速实践和倚天大数据场景落地实践。
阿里云李腾飞:基于ECS倚天实例的大数据加速最佳实践
|
SQL 关系型数据库 MySQL
MySQL主从模式最佳实践
主从模式是很常见的数据库存储解决方案,一主多从,当然还有双主模式(多主模式),你对数据库的主从模式有哪些见解,欢迎跟 V 哥聊聊。
526 0