平台:windows10专业版 + docker desktop + 3060
镜像 image:
registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
创建命令:
docker run -it --gpus all 9994f77d181f /bin/bash
9994f77d181f为镜像ID
报错提示信息:
docker: Error response from daemon: failed to create task for container: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy'
nvidia-container-cli: mount error: file creation failed: /var/lib/docker/overlay2/b647ab9aae63bdb3659664a27e90bbe0308c7cf1912a7b2bd326760e0cb64731/merged/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1: file exists: unknown.
直接创建不了,这种文件的报错不明白如何解决。
但是用ubuntu的镜像创建就可以
命令:docker run -it --gpus all ubuntu /bin/bash
命令:nvidia-smi
可以正常创建容器,也可以显示显卡信息。
不知要如何解决
运行docker run -it --gpus all 9994f77d181f /bin/bash
报错的问题
9994f77d181f 为modelscope GPU镜像ID
镜像:registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
尝试以下方法:
更新 Docker:如果您的 Docker 版本过旧,请尝试更新到最新版本。您可以通过以下命令更新 Docker:
sudo apt-get update
sudo apt-get upgrade
CopyCopy
检查您的 NVIDIA GPU 驱动程序:请确保您已安装了适用于您的 NVIDIA GeForce RTX 3060 的最新 GPU 驱动程序。您可以从 NVIDIA 官方网站下载合适的驱动程序:https://www.nvidia.com/Download/index.aspx
创建自定义镜像:如果您仍然遇到问题,您可以尝试创建一个基于官方镜像的自定义镜像,以便在您的环境中运行。以下是创建自定义镜像的步骤:
docker pull modelscope/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
docker tag modelscope/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0 your-username/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
docker push your-username/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
CopyCopy
请注意,将 your-username 替换为您在 Docker Hub 上的用户名。
这个问题看起来像是你的 Docker 镜像和你的操作系统或者硬件有一些兼容性问题。
首先,你的镜像 9994f77d181f 是从阿里云的镜像库中获取的,它被设计为在具有 CUDA 11.7.1、PyTorch 2.0.1、TensorFlow 1.15.5 和 PyTorch 1.8.0 支持的 Ubuntu 20.04 环境中运行。
问题可能出在几个地方:
Windows 10 和 Docker Desktop 的限制:虽然 Docker Desktop 可以在 Windows 10 上运行,但是有一些 GPU 功能可能无法在 Windows 系统中完全正常工作。尤其是在 Windows 10 中,Docker Desktop 可能无法完全支持 NVIDIA GPU。这可能是你无法在该环境下启动容器的原因。
镜像问题:可能这个镜像并不完全兼容你的环境。你可以尝试使用其他的 Docker 镜像,比如基于 Ubuntu 20.04 的官方 PyTorch 或者 TensorFlow 镜像,看看是否能正常运行。
NVIDIA Container Toolkit 的安装:这个问题可能是因为 NVIDIA Container Toolkit 没有正确安装或者配置。你需要确认你的系统中已经正确安装了这个工具包,并且已经按照文档正确配置了 Docker。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。