移植该选GPU还是MIC

简介:
GPU和MIC是目前两个流行的异构计算平台,二者在市场上的地位类似。如果当下有一个fortran程序,是该选择移植到GPU上还是MIC上呢?
个人推荐:GPU要优于MIC。
首先,我们来看下GPU和MIC的单机linpack结果:

该测试的GPU为K40m,MIC为31S1P(天河2号专用卡)
从这个测试结果上看,MIC的linpack测试性能似乎略胜于GPU。

其次,从编译器的软件环境来看,CUDA FORTRAN的编译器为PGI,MIC的编译器为intel fortran,两款编译器对于fortran语言标准的支持有细微差别,
从移植的角度来说,如果原来的程序是用的intel的,移植选择intel的编译器可能要少些麻烦。除此以外,intel的编译器是免费的,PGI是收费的,而且
费用还不低,如果单买PGI的fortran,需要5000rmb,同时购买PGI C和fortran,估计价格约为1万rmb。幸运的是,PGI推出了社区版本,可以免费试用1年。

从支持的库来看,MIC支持intel的MKL,而在GPU上的fortran库只有CULA,且CULA目前停止更新。当然可以通过fortran调用C的方式来调用其他的C
版本的库,前提是PGI最好连C版本一起买了。

从使用的难易程度来看,MIC的接口很容易,形似openMP,fortran使用GPU的方式有两种,一种CUDA FORTRAN,一种OPENACC。如果希望能深层次的
优化的话,CUDA FORTRAN更好一些。代价就是,增加了移植的难度。

从debug的角度来说,CUDA有支持的图形化界面nvvp和命令行nvprof,而对于MIC来说,debug则显得不方便,因为接口封装的比较完美,底层不易触及。

最后,我阐述下个人使用GPU和MIC的感受,对于GPU来说,固然有编写代码和优化的难题,但是,其效果是明显和可预期的,只要并行度高的程序总能
有加速比。而MIC表面上使用简单,但真到用起来了也是“谁用谁知道”,简单概况有两大坑:第一,接口的坑。明明一个很简单的类似openmp的接口语句,
就是给你报错,报的莫名其妙,而且debug起来也是头疼不已。第二,性能的坑。linpack测试的结果很喜人,实际用起来就不咋地,有时候不一定加速,甚至
减速也是有可能的。

总之,GPU目前来说更成熟更稳定,MIC的发展要晚于GPU,缺陷较多。希望对疑惑于选择GPU还是MIC的同学们有些帮助。

原文发布时间为: 2016-12-19 16:07:45
原文由:LGZ 发布,版权归属于原作者 
本文来自云栖社区合作伙伴NVIDIA,了解相关信息可以关注NVIDIA官方网站
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
3月前
|
传感器 编解码 人工智能
为 NVIDIA Jetson 和其他嵌入式系统选择合适的摄像头
本文详细介绍了为NVIDIA Jetson和其他嵌入式系统选择合适摄像头模块的关键因素,包括传感器类型(CCD和CMOS)、电子快门(全局快门和滚动快门)、彩色或单色传感器、动态范围、分辨率、帧率和接口等。文章还提供了光学器件的选择建议,并列出了NVIDIA摄像头模块合作伙伴,帮助用户完成从概念到生产的整个设计过程。
52 0
为 NVIDIA Jetson 和其他嵌入式系统选择合适的摄像头
|
4月前
|
算法 测试技术 AI芯片
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
【9月更文挑战第7天】微软研究院提出了一种名为T-MAC的创新方法,旨在解决大型语言模型在资源受限的边缘设备上高效部署的问题。T-MAC通过查表法在CPU上实现低比特LLM的高效推理,支持混合精度矩阵乘法,无需解量化。其通过位级查表实现统一且可扩展的解决方案,优化数据布局和重用率,显著提升了单线程和多线程下的mpGEMV及mpGEMM性能,并在端到端推理吞吐量和能效方面表现出色。然而,表量化和快速聚合技术可能引入近似和数值误差,影响模型准确性。论文详见:[链接](https://www.arxiv.org/pdf/2407.00088)。
244 10
|
8月前
|
编译器 芯片 异构计算
LabVIEWCompactRIO 开发指南24 第5章通过LabVIEW FPGA定制硬件
LabVIEWCompactRIO 开发指南24 第5章通过LabVIEW FPGA定制硬件
63 0
|
8月前
|
存储 小程序 中间件
单片机中MCU跑RTOS相比裸机的优势
单片机中MCU跑RTOS相比裸机的优势
166 1
|
8月前
|
并行计算 API C++
GPU 硬件与 CUDA 程序开发工具
GPU 硬件与 CUDA 程序开发工具
163 0
|
8月前
|
编解码 并行计算 计算机视觉
jetson-ffmpeg对视频硬编解码实测记录
jetson-ffmpeg对视频硬编解码实测记录
478 0
|
人工智能 语音技术 开发者
真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA
真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA
353 0
|
数据处理 数据安全/隐私保护 SoC
DSP+ZYNQ多核例程使用手册-XQTyer【开源】
DSP采用 TMS320C6657 双核C66x 定点/浮点,每核主频1GHz/1.25GHz。 Xilinx Zynq SoC处理器采用的XC7Z035/045集成PL端Kintex-7架构+PS 端双核ARM Cortex-A9 ,28nm可编程逻辑资源。
DSP+ZYNQ多核例程使用手册-XQTyer【开源】
|
Linux
嵌入式linux/鸿蒙开发板(IMX6ULL)开发(二十九)驱动进化之路:总线设备驱动模型
嵌入式linux/鸿蒙开发板(IMX6ULL)开发(二十九)驱动进化之路:总线设备驱动模型
195 0
嵌入式linux/鸿蒙开发板(IMX6ULL)开发(二十九)驱动进化之路:总线设备驱动模型
|
Linux 芯片
嵌入式linux/鸿蒙开发板(IMX6ULL)开发(二十四)具体单板的GPIO操作方法
嵌入式linux/鸿蒙开发板(IMX6ULL)开发(二十四)具体单板的GPIO操作方法
175 0
嵌入式linux/鸿蒙开发板(IMX6ULL)开发(二十四)具体单板的GPIO操作方法