全新HuggingFace数据集库发布!带来467种语言的611个文本数据集

简介: NLP初创公司 HuggingFace 近日发布新版其Datasets库 v1.2,包括611 个文本数据集,可以下载以准备在一行 python 中使用;涵盖 467 种语言,其中 99 种包含至少 10 个数据集;当使用非常大的数据集时(默认情况下是内存映射),高效的预处理可以使用户摆脱内存限制。

微信图片_20220112100255.png


谈到 Hugging Face,熟悉NLP的朋友们可能无人不知。


Hugging Face是一家领先的 NLP 创业公司,有超过一千家公司使用他们的产品库,其中包括必应,苹果,Monzo等。 


微信图片_20220112100257.png


它拥有一个大型的开源社区,尤其是transformers库。


transformers 是一个基于 python 的库,它公开了一个 API 来使用许多著名的transformer架构,如 BERT、 RoBERTa、 GPT-2或 DistilBERT等,这些架构可以获得各种 NLP 任务的SOTA结果,如文本分类、信息抽取、问答和文本生成。

 微信图片_20220112100259.png


这些架构都通过预训练得到了权重。通过pip命令即可安装: 


微信图片_20220112100301.png

而本次更新的datasets是一个提供两个主要特性的轻量级库:


 一行程序处理: 这是用于下载和预处理任何主要公共数据集的一行程序(使用467种语言和方言),在HuggingFace Datasets Hub提供。 


使用一个简单的命令,比如: 


squad _ dataset = load _ datasets (“ squad”) 


即可获得这些数据集中的任何一个,以便在数据采集器中用于训练/评估 ML 模型(Numpy/Pandas/PyTorch/TensorFlow/JAX) 。 


高效的数据预处理:简单、快速、可复制的数据数据预处理,可用于上述公共数据集以及用 CSV/JSON/text 编写的本地数据集。


使用简单的命令,比如:tokenized_dataset = dataset.map(tokenize_exemple),  ,可以有效地准备数据集进行检验和 ML 模型评估和训练。 


Datasets还提供了15个以上的评价指标,旨在让社区容易地添加和共享新的数据集和评价指标。 

Datasets还有许多其他有趣的特性:

将用户从 RAM 内存限制中释放出来,所有数据集都使用一个有效的零序列化开销后端(Apache Arrow)进行内存映射;  智能缓存: 永远无需等待数据被多次处理;  使用透明和 pythonic API (多处理/缓存/内存映射)实现轻量级和快速;  与 NumPy、 pandas、 PyTorch、 Tensorflow 2和 JAX 的内置互操作性。 


安装和用法


datasets可以从 PyPi 安装,而且必须在虚拟环境中安装(例如 venv 或 conda): 


pip install datasets 


如果想要将Datasets与 PyTorch (1.0 +)、 TensorFlow (2.2 +)或Pandas等一起使用,还应该安装对应版本的框架和库。 


Datasets使用起来非常简单,其中主要的方法有:


1.datasets.list_datasets() 列出可用的数据集 


2.datasets.load_dataset(dataset_name, **kwargs)  实例化一个数据集 


3.datasets.list_metrics()  列出可用的指标 


4.datasets.load_metric(metric_name, **kwargs)实例化一个指标 


举一个简单的例子:


微信图片_20220112100303.png


更多详细信息,可以查看文档中的快速浏览页面:https://huggingface.co/docs/datasets/quicktour.html

相关文章
|
计算机视觉 异构计算
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
|
弹性计算 安全 Linux
使用阿里云ECS服务器和frp配置SSH反向代理
校园网、公司内网中的设备一般是没有公网ip的,所以没办法用SSH直接连接。但是平时VSCode远程连接调调代码啥的都是通过SSH来连接的,平时不在学校或者公司的时候会很麻烦。虽然说VPN、向日葵花生壳之类的方法都能解决这个问题,但是这些方法不是麻烦就是贵或者不安全。frp只需要一台有公网ip的服务器就能实现外网SSH访问,相对来说比较简单。
|
10月前
|
机器学习/深度学习 人工智能 并行计算
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。
1501 3
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
|
3月前
|
算法 机器人 Python
机器人逆运动学进阶:李代数、矩阵指数与旋转流形计算
本文深入讲解机器人逆运动学中旋转计算的核心数学工具,包括矩阵指数与对数、SO(3)李群与李代数、流形和切空间等概念,帮助理解三维旋转误差计算原理,并提供基于矩阵指数的精确旋转更新方法及代码实现。
240 1
机器人逆运动学进阶:李代数、矩阵指数与旋转流形计算
|
存储 Linux 开发工具
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
【8月更文挑战第2天】告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
3661 64
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
|
5月前
|
运维 监控 安全
一文讲清质量管理5M1E分析法的底层逻辑
本文介绍了质量管理中的5M1E分析法,即从人、机、料、法、环、测六个方面系统分析质量波动原因,并提供具体管理方法与实操要点。通过整体联动与闭环管控,帮助企业实现质量管理的系统化与高效化,提升产品质量与稳定性。
|
10月前
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。
|
JSON 安全 API
API开发实战:从设计到部署的全流程指南
在数字化转型中,API成为系统集成的关键。本文引导读者逐步实践API开发: 1. 设计阶段确定需求,选择RESTful风格,例如天气查询API(/api/weather/{city}),返回JSON数据。 2. 使用Python和Flask实现API,处理GET请求,返回城市天气信息。 3. 进行测试,如用curl请求`http://localhost:5000/api/weather/Beijing`。 4. 文档化API,借助Flask-RESTPlus自动生成文档。 5. 部署到Heroku,创建`Procfile`,通过`heroku`命令推送代码。 【6月更文挑战第28天】
2411 0
|
11月前
|
Java 数据库连接 数据库
【潜意识Java】深度分析黑马项目《苍穹外卖》在Java学习中的重要性
《苍穹外卖》项目对Java学习至关重要。它涵盖了用户管理、商品查询、订单处理等模块,涉及Spring Boot、MyBatis、Redis等技术栈。
1378 4
|
负载均衡 网络协议 C#
C#实现WebSocket实时消息推送技术详解
C#实现WebSocket实时消息推送技术详解
909 1