魔搭社区模型速递（3.9-3.15）-阿里云开发者社区

魔搭社区模型速递（3.9-3.15）

2025-03-18 394

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 魔搭ModelScope本期社区进展：1066个模型，153个数据集，125个创新应用，13篇内容

🙋魔搭ModelScope本期社区进展：

📟1066个模型：CSM-1b、R1-Omni-0.5B、Gemma-3系列、OLMo-2-0325-32B-Instruct等；

📁153个数据集：SmallThoughts、s1-m_beta、codeforces-cots等；

🎨125个创新应用：ImageCaculate、MelQCD、模型费用计算器等；

📄 13篇内容：

有效的思考：模型思考效率评测
10分钟评测实验，鉴别大模型是真智能or伪学霸
驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源！
线上共学 | Mac本地玩转大模型
R1-Omni开源！多模态模型+RLVR，让各模态作用清晰可见
QwQ-32B，支持Function Call的推理模型，深度思考Agent的时代来了！
今日热门论文推荐：CoSTAast、Transformers without Normalization、VisualPRM
今日热门论文推荐：Seedream、LMM-R1、YuE、Gemini Embedding
今日热门论文推荐：MM-Eureka、FedRand、EasyControl、FEA-Bench、SurveyForge
今日热门论文推荐：EuroBERT、S2S-Arena、R1-Searcher
解读 | 金融长上下文基准测试FailSafeQA：解锁金融领域LLM真实的审慎性和容错性
“同西游，见万相” 主题LoRA风格挑战赛来袭！万元奖金池+猫超卡+限定周边来赢！
20万悬赏AI美妆！欧莱雅美妆科技黑客松2025重磅来袭

01.精选模型

CSM-1b

Sesame团队开源语音生成模型 CSM-1b，可根据文本和音频输入生成 RVQ 音频代码。其基于Llama架构构建，通过多模态骨干网络处理文本与音频输入，结合音频解码器生成RVQ编码的高质量语音。该模型支持端到端多模态学习，可结合对话历史生成连贯自然的语音，适用于实时交互场景如语音助手，延迟极低，当前开源版本主要针对英语场景优化。

模型地址：

https://www.modelscope.cn/models/sesameAILabs/csm-1b

示例代码：

step1：拉取代码

本次拉取的代码为基于gradio开发的版本，模型托管在modelscope上

git clone https://oauth2:Lj_V_qf8NsjT2RoCksjr@www.modelscope.cn/studios/sesameAILabs/csm-1b.git

step2：安装依赖

cd csm-1b
pip install -r requirements.txt

step3：运行命令

# 声明两个环境变量
export MS_TOKEN='xxxx' # MS_TOKEN 从https://www.modelscope.cn/my/myaccesstoken 获取
export WATERMARK_KEY="123 234 111 222 11"
cd csm-1b
python app.py

Gemma-3系列

Google DeepMind团队升级Gemma正式发布Gemma 3系列。Gemma 3是多模态大模型，处理文本和图像输入并生成文本输出，预训练变体和指令调整变体都有开放权重。Gemma 3 具有一个 128K 的大上下文窗口，支持 140 多种语言，并且比以前的版本提供更多大小。Gemma 3 模型非常适合各种文本生成和图像理解任务，包括问答、总结和推理。它们相对较小的尺寸使其能够部署在资源有限的环境中，例如笔记本电脑、台式机或自己的云基础设施。

模型地址：

示例代码：

环境安装

!pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

推理代码

from transformers import AutoTokenizer, BitsAndBytesConfig, Gemma3ForCausalLM
import torch
from modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/gemma-3-1b-it")
#quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = Gemma3ForCausalLM.from_pretrained(
    model_id
).eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
    [
        {
            "role": "system",
            "content": [{"type": "text", "text": "You are a helpful assistant."},]
        },
        {
            "role": "user",
            "content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
        },
    ],
]
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
with torch.inference_mode():
    outputs = model.generate(**inputs, max_new_tokens=64)
outputs = tokenizer.batch_decode(outputs)

R1-Omni-0.5B

R1-Omni 是由通义实验室推出的业界首次将带有可验证奖励（RLVR）的强化学习应用于全模态大型语言模型的研究工作，专注于情感识别任务，是一个视觉和音频模态都起关键作用的任务，以验证结合RLVR与全模态模型的潜力。研究揭示了几个关键见解：

1、增强的推理能力：R1-Omni展示了卓越的推理能力，使人们能够更清晰地理解视觉和音频信息如何贡献于情感识别。 2、提升的理解能力：与SFT相比，RLVR在情感识别任务上的表现显著提高。 3、更强的泛化能力：RLVR模型显示出明显更好的泛化能力，特别是在分布外场景中表现出色。

模型合集链接：

https://modelscope.cn/models/iic/R1-Omni-0.5B

02.数据集推荐

SmallThoughts

开放综合推理数据集，涵盖数学、科学、代码和谜题。

数据集链接：

https://modelscope.cn/datasets/AI-ModelScope/SmallThoughts

s1-m_beta

S1-M 数据集（Beta）是一个开源的 TI2T 推理数据集，用于训练 S1-M 模型（Beta），使其具有 “先思考，后响应” 的范式。S1-M 数据集（Beta）中的提示和图片来自两个开源数据集：align-anything 和 multimodal-open-r1-8k-verified，分别占 49.62% 和 50.38%，旨在平衡模型的通用能力和数学能力。

数据集链接：

https://modelscope.cn/datasets/PKU-Alignment/s1-m_beta

codeforces-cots

CodeForces-CoTs 是一个大规模数据集，用于在竞争性编程任务中训练推理模型。它由 10k 个 CodeForces 问题组成，最多 4 个 DeepSeek R1 生成的推理跟踪。

数据集链接：

https://modelscope.cn/datasets/open-r1/codeforces-cots