开发者社区> 问答> 正文

modelscope 的docker GPU镜像创建容器报错

平台:windows10专业版 + docker desktop + 3060

镜像 image:image.png
registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0

创建命令:
docker run -it --gpus all 9994f77d181f /bin/bash
9994f77d181f为镜像ID

报错提示信息:
docker: Error response from daemon: failed to create task for container: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy'
nvidia-container-cli: mount error: file creation failed: /var/lib/docker/overlay2/b647ab9aae63bdb3659664a27e90bbe0308c7cf1912a7b2bd326760e0cb64731/merged/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1: file exists: unknown.

直接创建不了,这种文件的报错不明白如何解决。

但是用ubuntu的镜像创建就可以
命令:docker run -it --gpus all ubuntu /bin/bash
命令:nvidia-smi
可以正常创建容器,也可以显示显卡信息。
image.png

不知要如何解决
运行docker run -it --gpus all 9994f77d181f /bin/bash
报错的问题
9994f77d181f 为modelscope GPU镜像ID
镜像:registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0

展开
收起
aliyun4508294211 2023-09-28 08:56:48 201 0
4 条回答
写回答
取消 提交回答
  • 想问一下解决了吗

    2023-10-26 18:28:59
    赞同 展开评论 打赏
  • 个人解决方案: 先用cup镜像创建分配了gpu资源的容器,然后手动安装torch gpu版本

    2023-10-12 11:11:35
    赞同 展开评论 打赏
  • 北京阿里云ACE会长

    尝试以下方法:

    1. 检查您的 Docker 版本:请确保您使用的 Docker 版本与官方文档中推荐的版本相匹配。您可以在 Docker 官方文档中查找有关 GPU 支持的 Docker 版本的信息:https://docs.docker.com/get-docker/
    2. 更新 Docker:如果您的 Docker 版本过旧,请尝试更新到最新版本。您可以通过以下命令更新 Docker:

      sudo apt-get update
      sudo apt-get upgrade
      CopyCopy

    3. 检查您的 NVIDIA GPU 驱动程序:请确保您已安装了适用于您的 NVIDIA GeForce RTX 3060 的最新 GPU 驱动程序。您可以从 NVIDIA 官方网站下载合适的驱动程序:https://www.nvidia.com/Download/index.aspx

    4. 创建自定义镜像:如果您仍然遇到问题,您可以尝试创建一个基于官方镜像的自定义镜像,以便在您的环境中运行。以下是创建自定义镜像的步骤:

      docker pull modelscope/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
      docker tag modelscope/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0 your-username/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
      docker push your-username/modelscope:ubuntu20.04-cuda11.7.1-py38-torch2.0.1-tf1.15.5-1.8.0
      CopyCopy

    请注意,将 your-username 替换为您在 Docker Hub 上的用户名。

    2023-09-29 09:09:13
    赞同 1 展开评论 打赏
  • 这个问题看起来像是你的 Docker 镜像和你的操作系统或者硬件有一些兼容性问题。

    首先,你的镜像 9994f77d181f 是从阿里云的镜像库中获取的,它被设计为在具有 CUDA 11.7.1、PyTorch 2.0.1、TensorFlow 1.15.5 和 PyTorch 1.8.0 支持的 Ubuntu 20.04 环境中运行。

    问题可能出在几个地方:

    Windows 10 和 Docker Desktop 的限制:虽然 Docker Desktop 可以在 Windows 10 上运行,但是有一些 GPU 功能可能无法在 Windows 系统中完全正常工作。尤其是在 Windows 10 中,Docker Desktop 可能无法完全支持 NVIDIA GPU。这可能是你无法在该环境下启动容器的原因。
    镜像问题:可能这个镜像并不完全兼容你的环境。你可以尝试使用其他的 Docker 镜像,比如基于 Ubuntu 20.04 的官方 PyTorch 或者 TensorFlow 镜像,看看是否能正常运行。
    NVIDIA Container Toolkit 的安装:这个问题可能是因为 NVIDIA Container Toolkit 没有正确安装或者配置。你需要确认你的系统中已经正确安装了这个工具包,并且已经按照文档正确配置了 Docker。

    2023-09-29 09:09:13
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
阿里云文件存储 NAS 在容器场景的最佳实践 立即下载
何种数据存储才能助力容器计算 立即下载
《容器网络文件系统CNFS》 立即下载