FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言

简介: FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言,支持多种 NLP 任务,如机器翻译和文本分类。该数据集通过定制化的数据处理流程,包括语言识别、去重、内容过滤和 PII 匿名化,提升了多语言模型的性能和泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多语言支持:覆盖超过 1000 种语言,支持全球多种语言的 NLP 任务。
  2. 定制化处理:针对不同语言特性,调整数据处理流程,包括语言特定的过滤器和停用词。
  3. 技术评估:提供评估和训练代码,方便研究人员和开发者测试和训练模型。

正文

FineWeb 2 是什么

公众号: 蚝油菜花 - fineweb-2

FineWeb 2 是 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言。该数据集通过定制化的数据管道处理,包括语言识别、去重、内容过滤和 PII 匿名化,适应不同语言的特点。

FineWeb 2 数据集支持广泛的 NLP 任务,如机器翻译、文本分类等,帮助提升多语言模型的性能和泛化能力。FineWeb 2 为开发者和研究人员提供检验新算法和技术的平台,提高多语言处理的普遍性和性能。

FineWeb 2 的主要功能

  • 多语言数据集构建:为超过 1000 种语言提供高质量的预训练数据,支持全球多种语言的 NLP 任务。
  • 定制化数据处理:针对不同语言的特性,调整数据处理流程,包括语言特定的过滤器和停用词。
  • 语言识别:使用 GlotLID 技术,识别文档中的语言和使用的脚本。
  • 去重:按语言全局去重,保留文档的多样性,记录重复文档的大小,便于“重新水化”数据集。
  • 数据过滤:保留原始 FineWeb 的过滤集,根据多语言环境调整,适应不同语言。
  • PII 匿名化:对个人身份信息进行匿名化处理,保护隐私。
  • 编码修复:使用 FTFY 工具修复编码问题。
  • 评估与训练:提供评估和训练代码,方便研究人员和开发者测试和训练模型。

FineWeb 2 的技术原理

  • 数据预处理

    • 语言识别:基于 GlotLID 技术对文档进行语言识别,确定文档的语言和使用的脚本。
    • 去重:对每种语言的数据进行全局去重,保留一个文档,记录重复文档的簇大小。
    • 过滤:根据语言特性调整过滤器,去除不符合要求的数据。
    • PII 匿名化:对文档中的个人身份信息进行匿名化处理,包括电子邮件和 IP 地址。
    • 数据“重新水化”:根据重复文档的簇大小,对文档进行上采样,提高某些语言的数据量和质量。
  • 评估与训练

    • 使用 FineTasks 评估套件对每个处理步骤后的模型进行评估。
    • 提供训练代码,基于 nanotron 框架训练 1.46B 模型。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习
大模型训练loss突刺原因和解决办法
【1月更文挑战第19天】大模型训练loss突刺原因和解决办法
2282 1
大模型训练loss突刺原因和解决办法
|
6月前
|
机器学习/深度学习 自然语言处理 API
Qwen-MT:翻得快,译得巧
今天,机器翻译模型Qwen-MT正式上线,支持92种语言互译,具备高度可控性与低延迟、低成本特点,适用于多种场景。开发者可通过Qwen API体验其强大翻译能力。
1308 15
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
1602 8
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
12月前
|
自然语言处理 JavaScript 前端开发
Qwen开源多语言基准数据集P-MMEval
Qwen开源多语言基准数据集P-MMEval
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
这篇论文探讨了基于规则的强化学习(RL)如何提升大型语言模型(LLM)的高级推理能力。通过在程序生成的逻辑谜题上训练并强制执行结构化思考,即使是较小的模型也能开发出可转移的问题解决策略。研究引入了多层次奖励系统,包括格式、答案、推理一致性和反思奖励,以引导模型形成严谨的推理过程。实验结果表明,这种方法不仅提高了模型在逻辑任务上的性能,还在数学问题解决、代码调试等领域展现出显著的泛化能力。此外,该方法在较小模型上实现了与大模型相当甚至更优的推理表现,为资源受限环境下的高效推理提供了新途径。
1155 0
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
|
机器学习/深度学习 人工智能
Qwen2VL-Flux:开源的多模态图像生成模型,支持多种生成模式
Qwen2VL-Flux 是一个开源的多模态图像生成模型,结合了 Qwen2VL 的视觉语言理解和 FLUX 框架,能够基于文本提示和图像参考生成高质量的图像。该模型支持多种生成模式,包括变体生成、图像到图像转换、智能修复及 ControlNet 引导生成,具备深度估计和线条检测功能,提供灵活的注意力机制和高分辨率输出,是一站式的图像生成解决方案。
1499 4
Qwen2VL-Flux:开源的多模态图像生成模型,支持多种生成模式
|
数据采集 人工智能 文字识别
高能力全透明双语大语言模型MAP-Neo完全开源,开放所有细节!
近年来,大型语言模型 (LLMs) 在各种任务中取得了前所未有的性能提升。然而,由于商业利益,最强大的模型(如 GPT、Gemini 和Claude)只能通过API访问,并未公开训练细节。
|
机器学习/深度学习 人工智能 自然语言处理
预训练驱动的统一文本表示-GTE魔搭社区最佳实践
文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。
|
数据采集 自然语言处理 文字识别
92页的llama 3.1技术报告,我替你们啃下来了
作者花了半个月时间,认真读完了llama 3.1技术报告,并总结成本文,希望能帮到对这个感兴趣的小伙伴们。
1907 9
92页的llama 3.1技术报告,我替你们啃下来了
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用与前景
本文探讨了人工智能(AI)技术在医疗领域的应用,包括疾病诊断、治疗方案制定、药物研发等方面。通过对现有研究成果的梳理,分析了AI技术在提高医疗服务效率、降低医疗成本、改善患者体验等方面的潜力。同时,也指出了AI技术在医疗领域面临的挑战,如数据隐私保护、伦理道德问题等,并展望了未来的发展趋势。
1061 2

热门文章

最新文章