开发者社区 > ModelScope模型即服务 > 多模态 > 正文

数据下载失败。无法高效下载

pretrain 数据集下载,使用给出的用例 next(iter(data)) 目前只有两条记录,分类数据 train,目前单线程下载,速度奇慢,没有多线程的示例,使用起来不方便。

展开
收起
1636393822710785 2023-06-15 12:04:08 274 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    正在下载 ModelScope 上的 Pretrain 数据集,并且下载速度较慢,可以考虑使用多线程下载来提高下载速度。ModelScope 提供了多个 Python 库和工具,可以帮助您使用多线程下载数据集。

    以下是一些使用多线程下载数据集的示例:

    使用 axel 工具进行多线程下载:

    在终端中安装 axel 工具:sudo apt-get install axel(适用于 Ubuntu 系统)
    在终端中执行以下命令下载数据集:axel -n 8 <下载链接>,其中 -n 8 表示使用 8 个线程进行下载。
    使用 aria2 工具进行多线程下载:

    在终端中安装 aria2 工具:sudo apt-get install aria2(适用于 Ubuntu 系统)
    在终端中执行以下命令下载数据集:aria2c -x 8 <下载链接>,其中 -x 8 表示使用 8 个线程进行下载。

    2023-07-19 21:12:30
    赞同 展开评论 打赏
  • AI系统工程
    1. 用例中的next(iter(data))只是随便展示一条示例,可以自行改成 for item in data: print(item) 的方式哈
    2. 速度的问题,目前因为数据集超大,像pretrain有1000w个视频文件,无法一次性加载到内存,所以先给出了流式加载的示例,流式加载的机制会一条一条的遍历,所以效率偏低,针对这个问题我们也在同步优化sdk,最新版本很快release出来。
    2023-06-15 19:55:03
    赞同 展开评论 打赏

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载