我想问下ModelScope数据集的数据怎么获取？

展开

收起

真的很搞笑 2023-11-15 08:04:34 2380 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
ModelScope数据集的获取方式取决于您使用的具体数据集和数据源。以下是一些常见的获取数据集的途径：
1. 官方提供：某些数据集可能由ModelScope官方或相关团队提供，您可以从官方网站、GitHub仓库或其他指定渠道下载数据集。
2. 公共数据集：许多常用的机器学习数据集都可以从公共资源中获取，例如UCI Machine Learning Repository、Kaggle、Google Dataset Search等。您可以在这些平台上搜索并下载与您研究或任务相关的数据集。
3. 数据持有者授权：如果数据集由特定的组织、研究者或数据提供商拥有，并且需要获得授权才能访问，请联系数据集的持有者，了解获取数据集的方式和条件。
4. 数据爬取或收集：在一些情况下，您可能需要自行进行数据爬取或数据收集来创建自定义的数据集。这通常需要具备相应的技术和法律合规意识，确保您遵守相关的规则和条例。
2023-11-30 23:27:54

赞同展开评论
芯在这

您看一下这个文档对您的问题是否有帮助https://www.modelscope.cn/docs/%E6%95%B0%E6%8D%AE%E9%9B%86%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97，此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2023-11-15 12:58:56

赞同展开评论
sunrr

在ModelScope中，数据集的获取主要有两种方式。首先，你可以从Hugging Face Hub加载数据集。具体来说，你需要先导入MsDataset模块，然后使用MsDataset.load方法下载数据集。例如，如果你想要下载glue数据集的'sst2'子集的训练集，你可以使用如下代码：from modelscope.msdatasets import MsDataset; ds_train = MsDataset.load('glue', subset_name='sst2', split='train', hub='huggingface')。

其次，你也可以直接从公开的URL地址加载数据集。这种方式通常适用于数据集已经被上传到公开的服务器上，并且可以通过HTTP或者FTP等方式进行访问。在这种情况下，你可以直接提供URL地址给MsDataset.load方法，就可以下载并加载数据集了。

值得一提的是，ModelScope的标准数据集指的是在完成数据集创建后，可直接加载并转换为标准数据集对象（例如torch dataset等），中间只需进行标准操作（tokenize/embedding/to tensor 等）即可接入trainer进行finetune任务的数据集。自定义数据集则需要数据贡献者自行对数据集结构进行解析，并自定义预处理流程。

2023-11-15 10:15:46

赞同展开评论

我想问下ModelScope数据集的数据怎么获取？

计算机视觉

相关文章

相关解决方案

热门讨论

热门文章