GPU配置太麻烦？来试试Docker一键配置GPU深度学习开发环境吧

2022-05-25 1545

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： docker环境无需安装cuda、cuDNN，docker镜像安装完毕后，就都好了，一键部署好之后，可以随意迁移，再也不用环境发愁了。

这是机器未来的第3篇文章，由机器未来原创

写在前面：

• 博客简介：专注AIoT领域，追逐未来时代的脉搏，记录路途中的技术成长！

• 专栏简介：记录博主从0到1掌握物体检测工作流的过程，具备自定义物体检测器的能力

• 面向人群：具备深度学习理论基础的学生或初级开发者

• 专栏计划：接下来会逐步发布跨入人工智能的系列博文，敬请期待

• Python零基础快速入门系列

• 快速入门Python数据科学系列

• 人工智能开发环境搭建系列

• 机器学习系列

• 物体检测快速入门系列

• 自动驾驶物体检测系列

• ......

@[toc]

1. 概述

在《物体检测快速入门系列(2)-Windows部署GPU深度学习开发环境》一文中已经描述了如何在Windows环境下部署GPU深度学习开发环境，但是要我推荐的话，我还是倾向于docker环境，无需安装cuda、cuDNN，docker镜像安装完毕后，就都好了，一键部署好之后，可以随意迁移，再也不用环境发愁了。

Docker运行于linux环境，windows环境一直兼容不好，鉴于博主没有安装双系统，研究了一下如何在Windows上部署Docker开发环境，发现真可行，微软的WIN10的linux子系统WSL2已经可以支持GPU映射到Docker了。

好了，开搞！

编辑

搜图

Moby-run-900x551.png

2. 安装linux子系统

windows目前已支持WSL2，可支持将主机的GPU映射到docker中运行。

• 查看windows平台可支持的linux子系统列表

wsl--list--online

PSC:\Users\25267>wsl.exe--list--online

以下是可安装的有效分发的列表。

请使用“wsl--install-d<分发>”安装。

NAME FRIENDLYNAME

Ubuntu Ubuntu

Debian DebianGNU/Linux

kali-linux KaliLinuxRolling

openSUSE-42 openSUSELeap42

SLES-12 SUSELinuxEnterpriseServerv12

Ubuntu-16.04 Ubuntu16.04LTS

Ubuntu-18.04 Ubuntu18.04LTS

Ubuntu-20.04 Ubuntu20.04LTS

• 安装子系统推荐安装Ubuntu20.04

PSC:\Users\25267>wsl--install-d Ubuntu-20.04

Ubuntu20.04LTS已安装。

正在启动Ubuntu20.04LTS…

• 设置默认子系统

PSC:\Users\25267>wsl--setdefaultUbuntu-20.04

PSC:\Users\25267>wsl-l-v

NAME STATE VERSION

*Ubuntu-20.04 Stopped 2 # *标识的就是默认子系统

docker-desktop-data Stopped 2

Ubuntu-18.04 Stopped 2

docker-desktop Stopped 2

3. 安装Windows平台Docker-Desktop

• 下载下载链接：点击此处
• 安装安装过程略，无脑安装即可。

4. 安装GPU的Docker镜像

4.1 拉取Docker镜像

dockerpulltensorflow/tensorflow:2.8.0rc1-gpu-jupyter

其它镜像查询地址：传送门

• 查看下载后的镜像

dockerimages

PSC:\Users\25267>dockerimages

REPOSITORY TAG IMAGEID CREATED SIZE

mongo latest 27dd1be4bed1 2weeksago 700MB

ubuntu 20.04 825d55fb6340 5weeksago 72.8MB

pytorch/pytorch 1.11.0-cuda11.3-cudnn8-runtime ca04e7f7c8e5 2monthsago 5.82GB

docker/getting-started latest bd9a9f733898 3monthsago 28.8MB

tensorflow/tensorflow 2.8.0-gpu-jupyter cc9a9ae2a5af 3monthsago 5.99GB

tanliyuan123/artipub 1.2.0 475119ff846a 14monthsago 1.71GB

pytorch/pytorch 1.6.0-cuda10.1-cudnn7-devel bb833e4d631f 21monthsago 7.04GB

pytorch/pytorch 1.3-cuda10.1-cudnn7-runtime ba2da111b833 2yearsago 4.32GB

tensorflow/tensorflow:2.8.0-gpu-jupyter既是拉取的镜像

4.2 基于镜像创建容器

dockerrun--gpusall-itd-ve:/dockerdir/docker_work/:/home/zhou/-p8888:8888--ipc=hostcc9a9ae2a5afjupyternotebook--no-browser--ip=0.0.0.0--allow-root--NotebookApp.token=--notebook-dir='/home/zhou/'

参数详解: --gpus all：不加此选项,nvidia-smi命令会不可用
-i: 交互式操作。
-t: 终端。
-p:端口映射，[Host Port]:[Container Port]
--ipc=host,启用进程间通讯
cc9a9ae2a5af:镜像ID
-d:后台运行，需要使用【docker exec -it 容器id /bin/bash】进入容器

• jupyternotebook启动命令：

jupyternotebook--no-browser--ip=0.0.0.0--allow-root--NotebookApp.token=--notebook-dir='/home/zhou/'

4.3 查询容器ID

dockerps

编辑

搜图

进入容器

dockerexec-itcc58e655b170

PSC:\Users\25267>dockerexec-itcc58e655b170/bin/bash

________ _______________

___ __/__________________________________ ____/__ /________ __

__ / _ _ \_ __ \_ ___/ __ \_ ___/_ /_ __ /_ __ \_|/| //

_ / / __/ // /(__ )//_// / _ __/ _ // /_//_ |/|/ /

/_/ \___//_/ /_//____/ \____//_/ /_/ /_/ \____/____/|__/

WARNING: Youarerunningthiscontainerasroot, whichcancausenewfilesin

mountedvolumestobecreatedastherootuseronyourhostmachine.

Toavoidthis, runthecontainerbyspecifyingyouruser's userid:

$dockerrun-u$(id-u):$(id-g) args...

4.4 查询docker是否已经支持GPU

• 查询cuda版本

root@bbe3199deccc:/# nvidia-smi

SunMay1514:19:512022

+-----------------------------------------------------------------------------+

|NVIDIA-SMI470.85 DriverVersion: 472.47 CUDAVersion: 11.4 |

|-------------------------------+----------------------+----------------------+

|GPU Name Persistence-M|Bus-Id Disp.A|VolatileUncorr. ECC|

|Fan Temp Perf Pwr:Usage/Cap| Memory-Usage|GPU-Util ComputeM. |

| | | MIGM. |

|===============================+======================+======================|

| 0 NVIDIAGeForce... Off |00000000:01:00.0 On| N/A|

|N/A 62C P8 5W/ N/A| 1356MiB/ 6144MiB| ERR! Default|

| | | N/A|

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

|Processes: |

| GPU GI CI PID Type Processname GPUMemory|

| ID ID Usage |

|=============================================================================|

| Norunningprocessesfound |

+-----------------------------------------------------------------------------+

• 查询cuDNN版本

root@bbe3199deccc:/# nvcc -V

nvcc: NVIDIA (R) Cudacompilerdriver

BuiltonSun_Feb_14_21:12:58_PST_2021

Cudacompilationtools, release11.2, V11.2.152

Buildcuda_11.2.r11.2/compiler.29618528_0

5. 安装VsCode Docker支持

5.1 安装VsCode

安装过程略。

5.2 安装Docker插件

编辑

搜图

image-20220515215552303

5.3 附着容器映射到VsCode

编辑

搜图

image-20220515215822873

• 附着到VsCode后的效果，已经连接到Docker容器

5.4 安装python支持到容器

在已经链接到容器的VsCode界面中，添加Python支持

5.5 安装jupyter插件到容器VsCode

编辑

搜图

image-20220515220526516

5.6 新建或打开notebook文件选择内核

编辑

搜图

image-20220515220742997

5.7 测试GPU训练模型

importnumpyasnp

importtensorflowastf

fromtensorflowimportkeras

fromtensorflow.keras.modelsimportSequential

fromtensorflow.keras.layersimportDense

fromtensorflow.keras.optimizersimportSGD

importtime

# config=tf.ConfigProto()

# config.gpu_options.allow_growth=True

# session=tf.Session(config=config)

# 启用GPU

fromtensorflow.compat.v1importConfigProto# tf2.x的写法

config=ConfigProto()

config.gpu_options.per_process_gpu_memory_fraction=0.6

tf.compat.v1.Session(config=config)

# 构建数据集

X_data=np.linspace(-1,1,1000)[:, np.newaxis]

noise=np.random.normal(0,0.05,X_data.shape)

y_data=np.square(X_data) +noise+0.5

print("shape")

print(X_data.shape)

# 构建神经网络

model=Sequential()

model.add(Dense(10, input_shape=(1,), kernel_initializer='normal', activation='relu'))

#model.add(Dense(5, activation='relu'))

# vs分类为softmax激活

model.add(Dense(10000, kernel_initializer='normal'))

model.add(Dense(100, kernel_initializer='normal'))

model.add(Dense(1, kernel_initializer='normal'))

#sgd=SGD(lr=0.001)

model.compile(loss='mean_squared_error', optimizer="sgd") #adam

# 训练epoch=10, 30, 50, viewtheresults

start=time.time()

model.fit(X_data, y_data, epochs=50, batch_size=16, verbose=1)

end=time.time()

# 在原数据上预测

y_predict=model.predict(X_data)

#print(y_predict)

model.summary()

print("training time {}".format(end-start))

训练效果及GPU使用情况见下图

编辑

搜图

这就是Docker的优势，可以直接安装已经配置好开发环境的linux镜像。

至此，Windows部署Docker GPU深度学习开发环境搭建完毕！

《物体检测快速入门系列》快速导航：

• 物体检测快速入门系列(1)-基于Tensorflow2.x Object Detection API构建自定义物体检测器
• 物体检测快速入门系列(2)-Windows部署GPU深度学习开发环境
• 物体检测快速入门系列(3)-Windows部署Docker GPU深度学习开发环境
• 物体检测快速入门系列(4)-TensorFlow 2.x Object Detection API快速安装手册

编辑

搜图

slogon-2

GPU配置太麻烦？来试试Docker一键配置GPU深度学习开发环境吧

1. 概述

2. 安装linux子系统

3. 安装Windows平台Docker-Desktop

4. 安装GPU的Docker镜像

4.1 拉取Docker镜像

4.2 基于镜像创建容器

4.3 查询容器ID

4.4 查询docker是否已经支持GPU

5. 安装VsCode Docker支持

5.1 安装VsCode

5.2 安装Docker插件

5.3 附着容器映射到VsCode

5.4 安装python支持到容器

5.5 安装jupyter插件到容器VsCode

5.6 新建或打开notebook文件选择内核

5.7 测试GPU训练模型

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

GPU配置太麻烦？来试试Docker一键配置GPU深度学习开发环境吧

1. 概述

2. 安装linux子系统

3. 安装Windows平台Docker-Desktop

4. 安装GPU的Docker镜像

4.1 拉取Docker镜像

4.2 基于镜像创建容器

4.3 查询容器ID

4.4 查询docker是否已经支持GPU

5. 安装VsCode Docker支持

5.1 安装VsCode

5.2 安装Docker插件

5.3 附着容器映射到VsCode

5.4 安装python支持到容器

5.5 安装jupyter插件到容器VsCode

5.6 新建或打开notebook文件选择内核

5.7 测试GPU训练模型

热门文章

最新文章

相关课程

相关电子书

推荐镜像