智源研究院开源中文互联网语料库CCI3.0,1000GB数据集,498GB高质量子集,魔搭社区可下载

简介: 近日,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI)

近日,在由中央网信办指导,北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI),包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0,并在2024年4月发布CCI 2.0。目前,CCI系列数据集下载量已超过4万次,服务500多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。

CCI 3.0下载地址

Flopsera:

http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

ModelScope:

https://www.modelscope.cn/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3

1

规模扩大,来源广泛

CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍,数据来源机构扩展至20多家,显著提升数据覆盖面和代表性。

2

精细标注,赋能应用

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记,以筛选高价值数据,为企业定制个性化训练数据提供可能性。此外,CCI 3.0 HQ是基于70B模型自动标注样本,然后训练小尺寸质量模型进行优中选优得到的高质量子集,可更好地满足不同行业和应用场景的需求。

3

效果显著,更懂中文

同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明,CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,而CCI 3.0 HQ的效果更加突出。

模型训练效果对比

未来,智源研究院将继续携手行业生态推动语料库共建共享,构建大规模高质量高知识密度的中文数据集,为中国人工智能产业发展做出贡献。


点击链接👇,直达数据集~

https://www.modelscope.cn/datasets/BAAI/CCI3-Data?from=alizishequ__text

相关文章
|
6月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
3月前
|
机器学习/深度学习 自然语言处理 PyTorch
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--6 提分方案
在讯飞英文学术论文分类挑战赛中的提分技巧和实现方法,包括数据增强、投票融合、伪标签等策略,以及加快模型训练的技巧,如混合精度训练和使用AdamW优化器等。
39 0
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--1 赛后总结与分析
参与讯飞英文学术论文分类挑战赛的经验,包括使用的多种模型和技术,如TextCNN、FastText、LightGBM和BERT,以及提分策略和遇到的问题。
37 0
|
3月前
|
机器学习/深度学习 自然语言处理 数据挖掘
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--2 数据分析
讯飞英文学术论文分类挑战赛数据集的分析,包括数据加载、缺失值检查、标签分布、文本长度统计等内容,并总结了数据的基本情况。
21 0
|
6月前
|
自然语言处理 物联网 Swift
联合XTuner,魔搭社区全面支持数据集的长文本训练
XTuner和魔搭社区(SWIFT)合作引入了一项长序列文本训练技术,该技术能够在多GPU环境中将长序列文本数据分割并分配给不同GPU,从而减少每个GPU上的显存占用。通过这种方式,训练超大规模模型时可以处理更长的序列,提高训练效率。魔搭社区的SWIFT框架已经集成了这一技术,支持多种大模型和数据集的训练。此外,SWIFT还提供了一个用户友好的界面,方便用户进行训练和部署,并且支持评估功能。
|
6月前
|
人工智能 Apache
社区供稿 | 140B参数、可商用!OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版
我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。
|
6月前
|
机器学习/深度学习 运维 数据可视化
中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 4.2K+星
中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 4.2K+星
80 0
|
人工智能 API 开发者
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
170 0
|
机器学习/深度学习 人工智能 自然语言处理
|
传感器 人工智能 编解码
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
134 0