魔搭社区每周速递(9.7-9.27)

简介: 182个模型、211个数据集、38个创新应用、6篇应用文章

image.png

🙋魔搭ModelScope本期社区进展:

📟6041个模型:GOT-OCR2.0、Qwen2.5系列、DeepSeek-V2.5、XVERSE-MoE-A36B等;

📁184个数据集:MMMLU、Omni-MATH、CCI3-Data、chinese-cosmopedia、Chinese Fineweb Edu Dataset、Infinity-Instruct、data-juicer-t2v-evolution-data-pool等;

🎨129个创新应用通义千问2.5体验集、GOT官方Demo、可图AI试衣等;

📄11篇文章:

  • 阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
  • 魔搭社区@2024云栖大会全回顾
  • 魔搭上新啦!智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4
  • 实战精选 | 5分钟利用 OpenVINO tm 部署 Qwen2.5
  • Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
  • ModelScope魔搭9月版本发布月报
  • 社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
  • ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
  • 社区供稿 | OpenCSG开源中文版fineweb edu数据集!
  • Liger kernel训练加速,一行代码训练吞吐量提高 20%,显存使用量降低 60%
  • 社区供稿 | Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型

精选模型

Qwen2.5系列

通义千问团队最新发布Qwen2.5系列,包括语言模型 Qwen2.5、专门针对编程的 Qwen2.5-Coder 和数学Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型,提供多种不同规模的版本,包括:

  • Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
  • Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
  • Qwen2.5-Math: 1.5B, 7B, 以及72B。

模型合集链接:

https://modelscope.cn/models?name=Qwen2.5&page=1

代码示例:

以Qwen2.5-72B-Instruct为例,使用transformers推理

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

更多推理、微调实战教程详见:

Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!

GOT-OCR2.0

阶跃星辰多模态团队开源的GOT-OCR2_0 以LLM为核心,对OCR技术提出更高要求,除文本识别外,还与多模态能力相结合,实现更为丰富的信息提取和理解。 该模型采用了Transformer结构,并结合了图像编码器、线性层和解码器三个模块。在预训练阶段,首先通过纯文本识别任务来预训练视觉编码器,然后连接一个更强大的解码器来进行多任务联合训练,以注入更多的OCR-2.0知识。最后,通过对解码器进行后训练,可以定制化新的OCR功能。

模型链接:

https://modelscope.cn/models/stepfun-ai/GOT-OCR2_0

代码示例:

安装依赖:

!pip install verovio

模型推理:

from modelscope import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True)
model = AutoModel.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True, low_cpu_mem_usage=True, device_map='cuda', use_safetensors=True, pad_token_id=tokenizer.eos_token_id)
model = model.eval().cuda()
# input your test image
image_file = '/mnt/workspace/58F3EF14-E073-4BBE-B9D9-53CCFE6AE183.png'
# plain texts OCR
res = model.chat(tokenizer, image_file, ocr_type='ocr')
# format texts OCR:
# res = model.chat(tokenizer, image_file, ocr_type='format')
# fine-grained OCR:
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_color='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_color='')
# multi-crop OCR:
# res = model.chat_crop(tokenizer, image_file, ocr_type='ocr')
# res = model.chat_crop(tokenizer, image_file, ocr_type='format')
# render the formatted OCR results:
# res = model.chat(tokenizer, image_file, ocr_type='format', render=True, save_render_file = './demo.html')
print(res)

更多推理、微调实战教程详见:

阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!

DeepSeek-V2.5

DeepSeek-V2.5 是 DeepSeek-V2-Chat 与 DeepSeek-Coder-V2-Instruct 的升级版本,新模型融合了前两个版本的通用能力和编码能力。

模型链接:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2.5

代码示例:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "deepseek-ai/DeepSeek-V2.5"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# `max_memory` should be set based on your devices
max_memory = {i: "75GB" for i in range(8)}
# `device_map` cannot be set to `auto`
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
messages = [
    {"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

XVERSE-MoE-A36B

XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 2554 亿,实际激活的参数量为 360 亿,本次开源的模型为底座模型 XVERSE-MoE-A36B,主要特点如下:

  • 模型结构:基于Decoder-only的Transformer架构,扩展FFN层为专家层,每个专家大小为标准FFN的1/4,并设有共享专家和非共享专家,共享专家在计算时始终被激活,非共享专家通过 Router 选择性激活。
  • 训练数据:使用包含40多种语言的高质量多样化数据进行训练,确保中英文表现优异,兼顾其他语言效果。训练样本长度为8K,并动态引入高质量数据。
  • 训练策略:调整学习率调度器以快速适应新数据。
  • 训练框架:优化MoE模型中的专家路由和权重计算,开发高效融合算子,提升计算效率;为解决MoE模型显存和通信挑战,设计了计算、通信和CPU-Offload的Overlap处理,提升吞吐量。

模型链接:

https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

代码示例:

可通过以下代码加载 XVERSE-MoE-A36B 模型来进行推理:

import torch
from modelscope import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('北京的景点:故宫、天坛、万里长城等。\n深圳的景点:', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))

数据集推荐

MMMLU

OpenAI推出MMMLU多语言大规模多任务语言理解数据集,用于评估和提升人工智能模型在不同语言、认知和文化背景下的性能。它建立在广受欢迎的MMLU基准之上,包含57项涵盖广泛主题和难度级别的任务,涉及基础数学到复杂法律和物理问题。MMMLU支持阿拉伯语、德语、斯瓦希里语等14种语言,能评估模型在资源丰富和匮乏的语言上的表现。专业翻译人员确保数据集准确可靠,对于跨语言任务中的AI能力评估至关重要。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/MMMLU

Omni-MATH

人工智能领域的最新进展,尤其是大型语言模型 (LLM) 的进展,已导致数学推理能力取得重大突破。然而,现有的基准测试(如 GSM8K 或 MATH)现在已能以高精度解决(例如,OpenAI o1 在 MATH 数据集上实现了 94.8%),这表明它们不足以真正挑战这些模型。为了缓解这一限制,该项工作提出了一个全面且具有挑战性的基准测试,专门用于评估 LLM 在奥林匹克级别的数学推理能力。与现有的奥林匹克相关基准测试不同,数据集专注于数学,包含 4428 个竞赛级问题。这些问题被精心分为 33 个(可能更多)子领域,涵盖 10 个不同的难度级别,从而能够对不同数学学科和复杂程度的模型性能进行细致的分析。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/Omni-MATH

CCI3-Data

针对中文优质安全数据集稀缺的问题,北京智源人工智能研究院于2023年11月29日开源了CCI(Chinese Corpora Internet)数据集,近期,在此基础上继续扩充数据来源,采用更严格的数据清洗方法,完成CCI 3.0数据集的建设。该数据集由来自可信来源的高质量、可靠的互联网数据组成,经过严格的数据清洗去重,针对内容质量和安全进行了针对性的检测和过滤。数据处理规则包括:

  • 基于规则的过滤:基于关键字的安全过滤、垃圾信息过滤等。
  • 基于模型的过滤:通过训练分类模型过滤低质量内容
  • 重复数据删除:数据集内和数据集之间的重复数据删除

数据集链接:

https://modelscope.cn/datasets/BAAI/CCI3-Data

chinese-cosmopedia

中文宇宙百科数据集共包含 1500 万个词条,约 600 亿个 token。构建合成数据集的两个关键元素是种子数据和提示。种子数据决定生成内容的主题,提示则定义数据的风格(如教科书、故事、教程或少儿读物)。数据来源多样,包括中文维基百科、百度百科、知乎问答、技术博客等,确保内容的广度和权威性。生成的数据格式多样,如大学教科书、中学教科书、儿童故事、普通故事、WikiHow 风格的教程等。通过为每个种子数据生成多种风格,该数据集不仅适用于学术研究,还可广泛应用于教育、娱乐和科技领域。

数据集链接:

https://modelscope.cn/datasets/opencsg/chinese-cosmopedia

Infinity Instruct

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,北京智源人工智能研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。

数据集链接:

https://modelscope.cn/datasets/BAAI/Infinity-Instruct

data-juicer-t2v-evolution-data-pool

Data-Juicer提出了一个专为集成数据模型共同开发而量身定制的新型沙盒套件。该沙盒提供了一个全面的实验平台,可实现数据和模型的快速迭代和洞察力驱动的细化。Data-Juicer提出的“探测-分析-细化”工作流程已通过T2V-Turbo上的应用程序验证,并在VBench 排行榜上取得了新的最高水平,比 T2V-Turbo 提高了 1.52%。实验代码和模型已在Data-Juicer Sandbox上发布。

数据集链接:

https://modelscope.cn/datasets/Data-Juicer/data-juicer-t2v-evolution-data-pool

精选应用

通义千问2.5体验集

多语言、多领域升级版AI模型系列,具有卓越的文本生成、数学解答和编程能力。

体验直达:

https://modelscope.cn/studios/Qwen/Qwen2.5

image.png

GOT官方Demo

阶跃星辰GOT-OCR-2.0官方在线体验Demo,通过统一的端到端模型实现 OCR-2.0

image.png

可图AI试衣

可图大模型再进化,实现AI试衣自由!

image.png

社区精选文章

相关文章
|
26天前
|
人工智能 前端开发 数据库
2025年最适合初学者的AI编程工具Top3:零基础也能写出专业级代码_ai代码生成器推荐
李响团队推荐2025年三款适合零基础的AI编程工具:Lynx AI、CodePal、DevMate。无需代码基础,说句话就能生成程序,帮你快速入门、边用边学,轻松迈入编程世界。
1068 154
|
12天前
|
云安全 人工智能 自然语言处理
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
基于通义千问:全AI自动驱动合同审查系统的技术解构与实践
“律杏法务云+通义千问”实现合同审查智能化跃迁,融合法律知识图谱与大模型技术,构建生成、审查、交互、进化闭环。支持智能清单生成、风险识别、条款补漏与AI对话,审查效率提升10倍,漏检率低于0.3%,推动法律科技进入AI新范式。
227 1
|
1月前
|
存储 人工智能 安全
把大模型“塞”进手机分几步?
「端侧AI创新挑战赛」教程第二期:教你用PocketPal AI在手机本地部署Qwen3-0.6B模型,无需联网、不写代码,实现离线对话。支持iOS/Android,保障隐私安全,轻松打造口袋里的AI助手。
622 2
|
17天前
|
人工智能 数据可视化 测试技术
Coze, Dify, N8N:三款主流AI工作流平台在测试中的应用对比
在敏捷开发背景下,Coze、Dify和n8n三大AI工作流平台正革新测试自动化。Coze零代码易上手,适合AI密集型任务;Dify支持私有化部署,适配企业级复杂流程;n8n开源可控,擅长系统集成。三者各有优势,助力测试团队实现高效人机协同,提升测试效能。
|
24天前
|
人工智能 前端开发 数据挖掘
AI学习全景图:从大模型到RAG,从工具到变现,一条从0到1的路线
告别碎片化学习!本文系统梳理AI知识五层结构:从基础认知到商业变现,提供完整学习路径与优质资源链接。帮你构建AI知识网络,实现从工具使用到能力落地的跃迁。
555 2
|
23天前
|
机器学习/深度学习 人工智能 JSON
构建AI智能体:二十八、大语言模型BERT:原理、应用结合日常场景实践全面解析
BERT是谷歌2018年推出的革命性自然语言处理模型,采用Transformer编码器架构和预训练-微调范式。其核心创新在于双向上下文理解和掩码语言建模,能有效处理一词多义和复杂语义关系。BERT通过多层自注意力机制构建深度表示,输入融合词嵌入、位置嵌入和段落嵌入,输出包含丰富上下文信息的向量。主要应用包括文本分类、命名实体识别、问答系统等,在搜索优化、智能客服、内容推荐等领域发挥重要作用。
569 10
|
7月前
|
人工智能 IDE 开发工具
寻找Cursor的替代品:10款AI编程工具深度评测与推荐·优雅草卓伊凡
寻找Cursor的替代品:10款AI编程工具深度评测与推荐·优雅草卓伊凡
5274 18
寻找Cursor的替代品:10款AI编程工具深度评测与推荐·优雅草卓伊凡
|
1月前
|
人工智能 数据可视化 开发者
5分钟,把Qwen“装”进电脑!
「端侧AI创新挑战赛」首期教程上线!手把手教你用Ollama在PC本地部署Qwen3-0.6B模型,无需代码、无需联网,5分钟打造专属私人AI助手。数据不出设备,响应快速,适合无网、高敏或定制化场景。轻量模型CPU即可运行,小白也能轻松上手。参赛提交创意还有机会赢取通义定制好礼!
764 2
|
3月前
|
存储 人工智能 搜索推荐
终身学习型智能体
当前人工智能前沿研究的一个重要方向:构建能够自主学习、调用工具、积累经验的小型智能体(Agent)。 我们可以称这种系统为“终身学习型智能体”或“自适应认知代理”。它的设计理念就是: 不靠庞大的内置知识取胜,而是依靠高效的推理能力 + 动态获取知识的能力 + 经验积累机制。
644 135