🙋魔搭ModelScope本期社区进展：

📟6041个模型：GOT-OCR2.0、Qwen2.5系列、DeepSeek-V2.5、XVERSE-MoE-A36B等；

📁184个数据集：MMMLU、Omni-MATH、CCI3-Data、chinese-cosmopedia、Chinese Fineweb Edu Dataset、Infinity-Instruct、data-juicer-t2v-evolution-data-pool等；

🎨129个创新应用：通义千问2.5体验集、GOT官方Demo、可图AI试衣等；

📄11篇文章：

阶跃星辰开源GOT-OCR2.0：统一端到端模型，魔搭一站式推理微调最佳实践来啦！
魔搭社区@2024云栖大会全回顾
魔搭上新啦！智源千万级指令微调数据集Infinity-Instruct，Llama3.1仅微调即可接近GPT-4
实战精选 | 5分钟利用 OpenVINO tm 部署 Qwen2.5
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战！
ModelScope魔搭9月版本发布月报
社区供稿 | 元象发布255B大规模MoE开源大模型，落地应用登顶港台榜
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
社区供稿 | OpenCSG开源中文版fineweb edu数据集！
Liger kernel训练加速，一行代码训练吞吐量提高 20%，显存使用量降低 60%
社区供稿 | Llama-3.1 70B全量训练！OpenBuddy发布新一代70B中文跨语言模型

精选模型

Qwen2.5系列

通义千问团队最新发布Qwen2.5系列，包括语言模型 Qwen2.5、专门针对编程的 Qwen2.5-Coder 和数学Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型，提供多种不同规模的版本，包括：

Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
Qwen2.5-Math: 1.5B, 7B, 以及72B。

模型合集链接：

https://modelscope.cn/models?name=Qwen2.5&page=1

代码示例：

以Qwen2.5-72B-Instruct为例，使用transformers推理

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "qwen/Qwen2.5-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

更多推理、微调实战教程详见：

Qwen2.5 全链路模型体验、下载、推理、微调、部署实战！

GOT-OCR2.0

阶跃星辰多模态团队开源的GOT-OCR2_0 以LLM为核心，对OCR技术提出更高要求，除文本识别外，还与多模态能力相结合，实现更为丰富的信息提取和理解。该模型采用了Transformer结构，并结合了图像编码器、线性层和解码器三个模块。在预训练阶段，首先通过纯文本识别任务来预训练视觉编码器，然后连接一个更强大的解码器来进行多任务联合训练，以注入更多的OCR-2.0知识。最后，通过对解码器进行后训练，可以定制化新的OCR功能。

模型链接：

https://modelscope.cn/models/stepfun-ai/GOT-OCR2_0

代码示例：

安装依赖：

!pip install verovio

模型推理：

from modelscope import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True)
model = AutoModel.from_pretrained('stepfun-ai/GOT-OCR2_0', trust_remote_code=True, low_cpu_mem_usage=True, device_map='cuda', use_safetensors=True, pad_token_id=tokenizer.eos_token_id)
model = model.eval().cuda()
# input your test image
image_file = '/mnt/workspace/58F3EF14-E073-4BBE-B9D9-53CCFE6AE183.png'
# plain texts OCR
res = model.chat(tokenizer, image_file, ocr_type='ocr')
# format texts OCR:
# res = model.chat(tokenizer, image_file, ocr_type='format')
# fine-grained OCR:
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_color='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_color='')
# multi-crop OCR:
# res = model.chat_crop(tokenizer, image_file, ocr_type='ocr')
# res = model.chat_crop(tokenizer, image_file, ocr_type='format')
# render the formatted OCR results:
# res = model.chat(tokenizer, image_file, ocr_type='format', render=True, save_render_file = './demo.html')
print(res)

更多推理、微调实战教程详见：

阶跃星辰开源GOT-OCR2.0：统一端到端模型，魔搭一站式推理微调最佳实践来啦！

DeepSeek-V2.5

DeepSeek-V2.5 是 DeepSeek-V2-Chat 与 DeepSeek-Coder-V2-Instruct 的升级版本，新模型融合了前两个版本的通用能力和编码能力。

模型链接：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2.5

代码示例：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "deepseek-ai/DeepSeek-V2.5"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# `max_memory` should be set based on your devices
max_memory = {i: "75GB" for i in range(8)}
# `device_map` cannot be set to `auto`
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id
messages = [
    {"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

XVERSE-MoE-A36B

XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），使用混合专家模型（MoE，Mixture-of-experts）架构，模型的总参数规模为 2554 亿，实际激活的参数量为 360 亿，本次开源的模型为底座模型 XVERSE-MoE-A36B，主要特点如下：

模型结构：基于Decoder-only的Transformer架构，扩展FFN层为专家层，每个专家大小为标准FFN的1/4，并设有共享专家和非共享专家，共享专家在计算时始终被激活，非共享专家通过 Router 选择性激活。
训练数据：使用包含40多种语言的高质量多样化数据进行训练，确保中英文表现优异，兼顾其他语言效果。训练样本长度为8K，并动态引入高质量数据。
训练策略：调整学习率调度器以快速适应新数据。
训练框架：优化MoE模型中的专家路由和权重计算，开发高效融合算子，提升计算效率；为解决MoE模型显存和通信挑战，设计了计算、通信和CPU-Offload的Overlap处理，提升吞吐量。

模型链接：

https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

代码示例：

可通过以下代码加载 XVERSE-MoE-A36B 模型来进行推理：

import torch
from modelscope import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('北京的景点：故宫、天坛、万里长城等。\n深圳的景点：', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))

数据集推荐

MMMLU

OpenAI推出MMMLU多语言大规模多任务语言理解数据集，用于评估和提升人工智能模型在不同语言、认知和文化背景下的性能。它建立在广受欢迎的MMLU基准之上，包含57项涵盖广泛主题和难度级别的任务，涉及基础数学到复杂法律和物理问题。MMMLU支持阿拉伯语、德语、斯瓦希里语等14种语言，能评估模型在资源丰富和匮乏的语言上的表现。专业翻译人员确保数据集准确可靠，对于跨语言任务中的AI能力评估至关重要。

数据集链接：

https://modelscope.cn/datasets/AI-ModelScope/MMMLU

Omni-MATH

人工智能领域的最新进展，尤其是大型语言模型 (LLM) 的进展，已导致数学推理能力取得重大突破。然而，现有的基准测试（如 GSM8K 或 MATH）现在已能以高精度解决（例如，OpenAI o1 在 MATH 数据集上实现了 94.8%），这表明它们不足以真正挑战这些模型。为了缓解这一限制，该项工作提出了一个全面且具有挑战性的基准测试，专门用于评估 LLM 在奥林匹克级别的数学推理能力。与现有的奥林匹克相关基准测试不同，数据集专注于数学，包含 4428 个竞赛级问题。这些问题被精心分为 33 个（可能更多）子领域，涵盖 10 个不同的难度级别，从而能够对不同数学学科和复杂程度的模型性能进行细致的分析。

数据集链接：

https://modelscope.cn/datasets/AI-ModelScope/Omni-MATH

CCI3-Data

针对中文优质安全数据集稀缺的问题，北京智源人工智能研究院于2023年11月29日开源了CCI（Chinese Corpora Internet）数据集，近期，在此基础上继续扩充数据来源，采用更严格的数据清洗方法，完成CCI 3.0数据集的建设。该数据集由来自可信来源的高质量、可靠的互联网数据组成，经过严格的数据清洗去重，针对内容质量和安全进行了针对性的检测和过滤。数据处理规则包括：

基于规则的过滤：基于关键字的安全过滤、垃圾信息过滤等。
基于模型的过滤：通过训练分类模型过滤低质量内容
重复数据删除：数据集内和数据集之间的重复数据删除

数据集链接：

https://modelscope.cn/datasets/BAAI/CCI3-Data

chinese-cosmopedia

中文宇宙百科数据集共包含 1500 万个词条，约 600 亿个 token。构建合成数据集的两个关键元素是种子数据和提示。种子数据决定生成内容的主题，提示则定义数据的风格（如教科书、故事、教程或少儿读物）。数据来源多样，包括中文维基百科、百度百科、知乎问答、技术博客等，确保内容的广度和权威性。生成的数据格式多样，如大学教科书、中学教科书、儿童故事、普通故事、WikiHow 风格的教程等。通过为每个种子数据生成多种风格，该数据集不仅适用于学术研究，还可广泛应用于教育、娱乐和科技领域。

数据集链接：

https://modelscope.cn/datasets/opencsg/chinese-cosmopedia

Infinity Instruct

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题，北京智源人工智能研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。近日，Infinity Instruct完成了新一轮迭代，包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。

数据集链接：

https://modelscope.cn/datasets/BAAI/Infinity-Instruct

data-juicer-t2v-evolution-data-pool

Data-Juicer提出了一个专为集成数据模型共同开发而量身定制的新型沙盒套件。该沙盒提供了一个全面的实验平台，可实现数据和模型的快速迭代和洞察力驱动的细化。Data-Juicer提出的“探测-分析-细化”工作流程已通过T2V-Turbo上的应用程序验证，并在VBench 排行榜上取得了新的最高水平，比 T2V-Turbo 提高了 1.52%。实验代码和模型已在Data-Juicer Sandbox上发布。

数据集链接：

https://modelscope.cn/datasets/Data-Juicer/data-juicer-t2v-evolution-data-pool

精选应用

通义千问2.5体验集

多语言、多领域升级版AI模型系列，具有卓越的文本生成、数学解答和编程能力。

体验直达：

https://modelscope.cn/studios/Qwen/Qwen2.5

GOT官方Demo

阶跃星辰GOT-OCR-2.0官方在线体验Demo，通过统一的端到端模型实现 OCR-2.0

可图AI试衣

可图大模型再进化，实现AI试衣自由！

魔搭社区每周速递（9.7-9.27）

精选模型

以Qwen2.5-72B-Instruct为例，使用transformers推理

Qwen2.5 全链路模型体验、下载、推理、微调、部署实战！

阶跃星辰开源GOT-OCR2.0：统一端到端模型，魔搭一站式推理微调最佳实践来啦！

数据集推荐

精选应用

社区精选文章

热门文章

最新文章

相关电子书

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

魔搭社区每周速递（9.7-9.27）

精选模型

以Qwen2.5-72B-Instruct为例，使用transformers推理

数据集推荐

精选应用

社区精选文章

热门文章

最新文章

相关电子书