初识CUDA
1.异构计算
1.host CPU和内存
2.Device GPU和显存
2.CUDA的查看
一般显卡,服务器用 nvidia-smi查看相关参数
jetson设备 用jtop查看相关参数
3.程序编写
1.把数据用CPU处理好复制到gpu
2.执行芯片缓存数据,加载gpu程序并执行
3.将计算结果从GPU显存复制到CPU内存中
关键字:
__global__
将函数声明为内核,在device上执行,device上调用
__device__
执行空间说明符,声明一个函数,在device上执行,host和device上调用
__host__
声明了一个函数,执行和调用都是在host
CUDA编写
int main()在host执行
__global__
在device上执行
CUDA程序的编译
cuda编译用nvcc
从.cu 编译为.o,再从.o编译为可执行文件
NVPROF
分析工具
分析命令:
nvprof -o out.nvvp a.exe