《OpenACC并行程序设计:性能优化实践指南》一 2.1 测试代码:共轭梯度法

简介: 本节书摘来自华章出版社《OpenACC并行程序设计:性能优化实践指南》一 书中的第2章,第2.1节,作者:[美] 罗布·法伯(Rob Farber),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1 测试代码:共轭梯度法

本章中使用共轭梯度法作为标准测试代码。共轭梯度法是一种迭代算法,常用来逼近一组线性方程组成的大型稀疏系统。由于这种系统通常规模庞大,因此难于使用直接法进行求解。阅读本章不需要理解共轭梯度法的数学含义。提供了共轭梯度法的C和Fortran编码实现供读者参考。简洁起见,本章仅展示了C代码。不过不必担心,C代码的应用方式可以扩展到Fortran代码,两者区别不大。本章使用的代码遵循Apache许可,版本2.0。详情请阅读许可文件。
示例代码包含两种数据结构。第一个是向量结构,结构成员包含指向数组的指针和一个表征数组长度的整型变量。第二个是矩阵,以压缩稀疏行形式存储一个二维稀疏矩阵,该矩阵仅存储各行的非零元素。第二个数据结构还包含一个元数据,用来表示非零元素在原矩阵中的位置。这两种数据结构连同多个用来创建、销毁、操控这些数据结构的函数可以在vector.h和matrix.h头文件中找到。
性能导向开发的第一个任务是开发一套代码并获取它的性能作为基准性能。基准性能被用来作为逐步加速和比较的基础,以考察正确性和性能特性。makefile文件连同测试代码经过预设置以适应PGI编译器进行编译。如果读者使用其他OpenACC编译器,有必要对makefile文件进行适当的修改。

2.1.1 代码编译

提供的makefile文件可以用来编译CPU串行版代码,通过简单的make命令使用PGI编译器完成编译。为了给初始性能研究提供更多的有用信息,对编译器选项进行了一些修改,添加了一些性能调试选项。
-Minfo=all,ccff:该编译器选项告知编译器将它如何对代码进行优化的说明打印出来,并将这些信息植入到生成的可执行文件中。支持常用编译器反馈格式的调试工具能够利用这些信息。
修改后的makefile见图2-1。
这里,得到一个可执行程序(cg.x),该程序将串行执行共轭梯度基准测试。期望的输出见图2-2。可执行程序运行时间与CPU性能密切相关,会有一定出入,但总迭代次数和误差值与展示的求解值是相匹配的。

screenshot

2.1.2 初始测试

首先使用PGProf性能调试器获取代码的基准CPU性能。这将有助于理解可执行程序的哪部分最为耗时,从而便于重点关注热点函数和循环,在加速后取得最好的效果。安装PGI编译器和OpenACC开发包后,就获得了PGProf性能调试器的使用权。在命令行终端键入pgprof命令可以打开PGProf性能调试器。性能调试器窗口开启后,在File菜单中选择New Session项,打开Create New Session对话框。通过File对话框,点击Browse按钮浏览并选择可执行程序,即cg.x。选中可执行程序后,点击Next按钮和Finish按钮。之后,性能调试器将开始运行可执行程序并以常规采样频率对程序运行状态进行监控,获取性能信息。运行完毕后,选择窗体底部的CPU详情选项卡,可执行程序中最为重要的函数信息将显示出来,如图2-3所示。
此时,双击最为耗时的函数matvec。会弹出一个对话框,请你选择源程序所在的路径。选择路径完毕后,将弹出一个关于matrix_functions.h中的matvec子程序的新选项卡。第33行对应的循环体将在左侧显示一个标记,该标记表明性能调试器可以获取该循环对应的编译器反馈信息。将鼠标停留在这些图形标记上,将弹出一个窗体,该窗体展示编译器能够对此循环附加的优化以及该循环的计算量大小,如图2-4所示。

screenshot

screenshot

分析编译器反馈信息是理解编译器可对代码采取何种优化的唯一途径。编译器可能会重新组织代码中的循环体,将循环拆分为更多个可调度的代码块,通过形如SSE和AVX类的向量指令操作将代码并行化,或不采取任何优化,以避免对难以优化和保证正确性的代码部分进行误操作。通常,编程人员对于编译器难以理解的代码有更深入的领悟。编译器对这些代码通常无法进行优化和并行化。本章致力于为编译器提供更多的信息,用以提升编译器的优化和并行化能力。这便是OpenACC编程的首要目标:为编译器提供充足的附加信息,指引它进行并行化编译,并使代码适用于各种类型的硬件设备。
经过对CPU性能表进行分析,发现了三个热点函数:matvec,waxpy和dot。耗时第四多的子程序是allocate_3d_poisson_matrix。但该函数是一个初始化子程序,仅仅运行一次,因此对该函数不做优化。代码显示,matvec子程序包含一个二重嵌套循环,实现了稀疏矩阵/向量乘。其他两个子程序均包含一个单重循环,实现了两种常见的向量操作(aX+bY和点乘)。这就是需要集中精力进行并行化的三个循环体。

相关文章
|
数据采集 机器学习/深度学习 大数据
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
这篇文章详细介绍了C3D架构在行为检测领域的应用,包括训练和测试步骤,使用UCF101数据集进行演示。
500 1
行为检测代码(一):超详细介绍C3D架构训练+测试步骤
|
3月前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
372 1
|
4月前
|
算法 IDE Java
Java 项目实战之实际代码实现与测试调试全过程详解
本文详细讲解了Java项目的实战开发流程,涵盖项目创建、代码实现(如计算器与汉诺塔问题)、单元测试(使用JUnit)及调试技巧(如断点调试与异常排查),帮助开发者掌握从编码到测试调试的完整技能,提升Java开发实战能力。
477 0
|
2月前
|
安全 Java 测试技术
《深入理解Spring》单元测试——高质量代码的守护神
Spring测试框架提供全面的单元与集成测试支持,通过`@SpringBootTest`、`@WebMvcTest`等注解实现分层测试,结合Mockito、Testcontainers和Jacoco,保障代码质量,提升开发效率与系统稳定性。
|
3月前
|
人工智能 边缘计算 搜索推荐
AI产品测试学习路径全解析:从业务场景到代码实践
本文深入解析AI测试的核心技能与学习路径,涵盖业务理解、模型指标计算与性能测试三大阶段,助力掌握分类、推荐系统、计算机视觉等多场景测试方法,提升AI产品质量保障能力。
|
5月前
|
安全 Java 测试技术
Java 项目实战中现代技术栈下代码实现与测试调试的完整流程
本文介绍基于Java 17和Spring技术栈的现代化项目开发实践。项目采用Gradle构建工具,实现模块化DDD分层架构,结合Spring WebFlux开发响应式API,并应用Record、Sealed Class等新特性。测试策略涵盖JUnit单元测试和Testcontainers集成测试,通过JFR和OpenTelemetry实现性能监控。部署阶段采用Docker容器化和Kubernetes编排,同时展示异步处理和反应式编程的性能优化。整套方案体现了现代Java开发的最佳实践,包括代码实现、测试调试
221 0
|
6月前
|
测试技术 Go 开发者
如何为 gRPC Server 编写本地测试代码
本文介绍了如何使用 Go 语言中的 gRPC 测试工具 **bufconn**,通过内存连接实现 gRPC Server 的本地测试,避免端口冲突和外部依赖。结合示例代码,讲解了初始化内存监听、自定义拨号器及编写测试用例的完整流程,并借助断言库提升测试可读性与准确性。适用于单元及集成测试,助力高效开发。
139 1
|
机器学习/深度学习 人工智能 监控
提升软件质量的关键路径:高效测试策略与实践在软件开发的宇宙中,每一行代码都如同星辰般璀璨,而将这些星辰编织成星系的过程,则依赖于严谨而高效的测试策略。本文将引领读者探索软件测试的奥秘,揭示如何通过精心设计的测试方案,不仅提升软件的性能与稳定性,还能加速产品上市的步伐,最终实现质量与效率的双重飞跃。
在软件工程的浩瀚星海中,测试不仅是发现缺陷的放大镜,更是保障软件质量的坚固防线。本文旨在探讨一种高效且创新的软件测试策略框架,它融合了传统方法的精髓与现代技术的突破,旨在为软件开发团队提供一套系统化、可执行性强的测试指引。我们将从测试规划的起点出发,沿着测试设计、执行、反馈再到持续优化的轨迹,逐步展开论述。每一步都强调实用性与前瞻性相结合,确保测试活动能够紧跟软件开发的步伐,及时适应变化,有效应对各种挑战。
|
8月前
|
存储 jenkins 测试技术
Apipost自动化测试:零代码!3步搞定!
传统手动测试耗时低效且易遗漏,全球Top 10科技公司中90%已转向自动化测试。Apipost无需代码,三步实现全流程自动化测试,支持小白快速上手。功能涵盖接口测试、性能压测与数据驱动,并提供动态数据提取、CICD集成等优势,助力高效测试全场景覆盖。通过拖拽编排、一键CLI生成,无缝对接Jenkins、GitHub Actions,提升测试效率与准确性。
678 11