本文以图文结合的方式,详细记录了linux操作系统搭建miniconda+cuda+pytoch深度学习环境的步骤,供大家参考学习。
一、gpu服务器准备
首先注册九天毕昇人工智能平台,注册之后有免费的gpu服务器可以使用,注册后点击右上角的控制台,然后点击单机训练-->新建实例
然后对实例名称进行命名,选择资源套餐。
新建实例之后,点击启动,然后点击jupyter,然后在other选项中选择以terminal。
二、miniconda安装
进入官网miniconda官网
按照官网的命令进行安装
1、运行以下命令,创建miniconda3目录,和下载miniconda3
mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
2、运行以下命令,安装miniconda3
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
3、运行以下命令,删除miniconda3包
rm -rf ~/miniconda3/miniconda.sh
4、安装完成后,运行以下命令,初始化终端Shell,以便我们可以直接运行conda。
~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh
5、验证
关闭终端,重新打开终端,输入python查看安装的python版本号。
6、Conda源查看
查看conda下载源,可以看到为阿里云镜像。如果是国外的anaconda地址,建议为国内的源。
运行conda info,查看目前的源
三、cuda配置
1、运行nvcc --version命令,查看服务器默认的cuda版本
2、运行echo $PATH命令,查看当前服务器的默认路径,可以看到cuda的默认路径为/usr/local/cuda/bin
3、运行ls -l /usr/local查看local目录中的详细信息。
可以看到cuda -> /usr/local/cuda-10.1,这是一个软连接,指向cuda10.1这个目录。
从上面可以看出,服务器中有两个cuda版本(10.1和11.7),服务器默认是10.1,由于10.1相对比较低。
4、下面修改服务器默认cuda版本,更改为cuda-11.7
(1)运行cd /usr/local/命令,进入/usr/local/目录下
(2)运行sudo rm -rf /usr/local/cuda命令,删除原来的软链接
(3)运行sudo ln -s /usr/local/cuda-11.7 /usr/local/cuda命令,生成新的软链接
(4)运行nvcc --version,再次查看cuda版本
四、pytorch下载安装
1、创建虚拟环境
运行conda create --name d2l python=3.9 -y命令,创建一个新的conda环境,名称叫d2l,虚拟环境安装在目录(/root/.local/conda/envs/ailearn)下
2、查看系统中刚才创建的虚拟环境d2l
运行conda info --envs命令可以查看创建的虚拟环境d2l
3、激活虚拟环境d2l
运行conda activate d2l,激活虚拟环境,准备安装pytorch
4、安装pytorch1.13.1版本
运行pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1命令,安装pytorch、torchvision、torchaudio三个包
5、运行pip list查看虚拟环境中已安装的包
6、验证pytorch是GPU版本还是cpu版本
print(torch.cuda.is_available())为true,表示为gpu版本,
print(torch.cuda.device_count())表示查看gpu的数量。
7、查看gpu显存占用和总大小
运行nvidia-smi,可以看到目前显存占用为0,总大小为8000M
至此,深度学习环境准备完毕。