打造跨语言智能工具与应用,“万卷·丝路”专项课题开放申请

简介: 随着共建“一带一路”进入高质量发展阶段,全球开发者对于多语言模型训练的需求不断增长,上海AI实验室联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑,助力全球开发者构建跨语言智能工具与应用。

image.png 随着共建“一带一路”进入高质量发展阶段,全球开发者对于多语言模型训练的需求不断增长,上海AI实验室联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑,助力全球开发者构建跨语言智能工具与应用。(点击了解:多语言语料库“万卷·丝路”发布,AI赋能共建“一带一路”现面向全社会开放多语言课题合作及应用案例征集,并提供丰富、多维的资源支持,欢迎大家报名。

01. 多语言语料库研究合作

image.png

“万卷·丝路”多语言语料库发布以来,吸引众多开发者积极下载、使用。围绕该语料库的开源应用,上海人工智能实验室联合大模型语料数据联盟,对外开放专项课题合作,提供多元化的项目支持,寻找那些能够深化多语种语料库在关键领域的应用,如多语言模型微调与性能优化、跨语言企业出海智能工具研发等。

欢迎基础模型研发类企业、NLP算法/多语言算法研究员、多语种模型应用开发者、开发团队加入。

专题课题参考

围绕多语种语料库的建设、应用与发展趋势,聚焦语言教育、翻译实践、人工智能等多领域的应用需求,按照“创新驱动、应用导向”的原则,选取多语种语料库的构建、处理、分析、应用等“小切口”主题,广泛征集创新性研究成果。

研究方向参考:

1. 多语言模型微调与性能优化

2. 多语言智能助手应用开发

3. 跨语言企业出海智能工具研发

4. 多语言大模型评价与优化机制研究

5. 多语言语料库建设与开放

6. 多语言对话模型对齐评测基准构建

7. 多语言语料的自动标注与生成工具开发

8. 多语言智能教育系统的研究与开发

支持内容

基于上海人工智能实验室与大模型语料数据联盟在数据处理与体系化能力建设的积淀,“万卷·丝路”多语言语料库专项课题为入选团队提供多维度的支持:

● 顶级项目支持(科研经费、算力资源、数据工具、宣传等资源)

● 优秀成果应用转化

● 技术直播讲师邀约

● 大模型语料数据联盟卓越贡献者证书

参与对象

欢迎各类机构或个人参加,包括但不限于:

● 基础模型研发类企业

● NLP算法/多语言算法研究员

● 多语种模型应用开发者

● AI 应用开发团队

征集时间

专项课题申请截止日期为2025年6月20日。

(更多细则,可点击文末阅读原文查看)

主办单位

上海人工智能实验室、大模型语料数据联盟、北京外研在线数字科技有限公司

报名方式

如果你正在开展“万卷·丝路”多语言语料库的相关应用研究,或是渴望加入多语种语料算法优化、模型开发专属社群,与全球开发者共同开展技术交流,欢迎扫码填报“万卷·丝路”使用情况,与我们一起,以人工智能推动跨文化交流与业务拓展。

👇

image.png

更多交流请添加小助手微信

获取更多高质量、大规模、安全可信的数据集

沟通更多关于数据集的合作事项

👇

image.png

02.“万卷·丝路”多语言预训练语料库介绍

“万卷·丝路”是国内规模最大、领域覆盖最全面的高质量多语言预训练语料库,数据总规模超1.2TB,Token总数超过300B,处于国际领先水平。首期开源的语料库包含泰语、俄语、阿拉伯语、韩语和越南语5个子集,每个子集均突破150GB数据规模,通过创新的七维分类体系(历史沿革、商贸经济、专业知识库、文化传承、新闻时政等)和32个垂直领域标签,系统构建起兼具语言特征与文化特质的数据集。开发者可根据具体需求检索数据,满足从基础研究到产业应用的多样化需求。

经严格评测验证,"万卷·丝路"展现出显著的模型赋能效应:基于7B参数基础模型训练,实现综合性能跃升52.3%;在700亿参数的大模型训练中,仍保持12.8%的性能增益。值得注意的是,依托”万卷·丝路”,使轻量化模型在多语言处理领域展现出超越大模型的卓越表现。

数据集下载

“万卷·丝路”已发布至大模型语料数据联盟开源数据服务指定平台OpenDataLab及各大开发者社区,全球开发者均可通过以下开源链接下载:

OpenDataLab:

https://opendatalab.com/applyMultilingualCorpus

ModelScope:

https://www.modelscope.cn/datasets?Tags=text-classification&dataType=text&organization=OpenDataLab&page=1

目录
相关文章
|
7月前
|
存储 机器学习/深度学习 人工智能
云栖 2025|阿里云 Qwen3 系列领衔:AI 模型全栈突破与开发者落地指南
阿里云发布Qwen3全栈AI体系,七大模型升级、性能全球领先,开源生态稳居第一。从底层基建到开发工具链全面优化,助力企业高效落地AI应用,共建超级AI云生态。
2198 11
|
数据可视化 固态存储 图形学
解锁3D创作新姿势!Autodesk 3ds Max 2022中文版安装教程(附官方下载渠道)
Autodesk 3ds Max 2022 是一款专业三维建模、动画和渲染软件,广泛应用于影视、游戏、建筑等领域。其特点包括智能建模工具、高效Arnold渲染引擎、跨平台协作及多语言支持。安装需满足Win10/11系统、i5以上处理器、8GB内存等要求。正版安装流程包括下载官方程序、配置组件、激活许可证并验证功能。常见问题如安装失败、中文乱码等提供了解决方案。扩展学习资源推荐Forest Pack、V-Ray等插件,助力用户深入掌握软件功能。
3506 24
|
10月前
|
存储 缓存 API
从零构建企业知识库问答系统(基于通义灵码+RAG+阿里云OSS的落地实践)
本系统基于RAG技术,结合语义检索与大语言模型,解决企业知识管理中的信息孤岛、检索低效和知识流失问题。采用通义灵码、Milvus与阿里云OSS,实现知识查询效率提升、新员工培训周期缩短及专家咨询减少。支持多模态文档处理,具备高可用架构与成本优化方案,助力企业智能化升级。
1408 3
|
数据采集 人工智能 自然语言处理
关于大模型语料的迷思
随着大模型发展的不断深入,我们越来越关注到语料质量对模型能力的影响,语料中的偏差和主观性会导致生成内容不准确或带有偏见。智能引擎事业部是阿里内部深耕多年的AI工程团队,为内部业务提供了完整的大模型工程体系,持续关注大模型训推性能、成本、研发范式等关键问题。本文将基于我们的思考,探讨大模型语料的复杂性及其背后的思维过程。
|
自然语言处理 开发者
《黑神话:悟空》的剧情脚本与对话系统设计
【8月更文第26天】在《黑神话:悟空》这款游戏中,引人入胜的故事情节和丰富多样的对话系统是吸引玩家的关键因素之一。本文将详细介绍游戏剧情脚本的编写过程以及交互式对话系统的实现技术。
825 0
|
自动驾驶 5G 测试技术
5G NR中的帧结构是如何设计的?
【8月更文挑战第31天】
1425 1
|
人工智能 自然语言处理 机器人
9411亿!!!阿里2024财报曝光
9411亿!!!阿里2024财报曝光
6825 0
|
Java Apache Maven
Apache ShardingSphere 实现分库分表及读写分离
Apache ShardingSphere 实现分库分表及读写分离
295 0
|
关系型数据库 MySQL 数据库
精通MySQL:数据库管理、性能优化与最佳实践
h3> 一、引言 MySQL是一个功能强大的开源关系型数据库管理系统,广泛应用于各种Web应用、企业级应用和数据分析等领域
1563 0
|
机器学习/深度学习 算法 搜索推荐
【C++修行之道】竞赛常用库函数(sort,min和max函数,min_element和max_element、nth_element)
【C++修行之道】竞赛常用库函数(sort,min和max函数,min_element和max_element、nth_element)

热门文章

最新文章