小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头

简介: 小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「国产模型逆袭!小米7B小钢炮干翻32B巨无霸,技术白皮书揭秘三阶段训练法」

大家好,我是蚝油菜花。当科技大厂还在比拼参数规模时,小米用这个开源模型证明了——小身材也能爆发大智慧!你是否遇到过这些AI推理困境:

  • ∑ 数学题分步解析总在关键步骤「跳步」
  • 💻 生成的代码看似能用,实际藏了三个语法坑
  • ⏱️ 等大模型推理结果时,咖啡都喝完了两杯...

今天解剖的 Xiaomi MiMo ,正在重写推理模型的效率规则!这个7B参数的「逻辑刺客」:

  • 数学推理开挂:在GSM8K测评中碾压部分32B模型
  • 代码生成防坑:自动规避常见语法陷阱,可用率提升63%
  • 训练效率革命:独创三阶段训练法,用25T tokens练就「最强大脑」

已有教育机构用它开发AI解题助手,文末附《7B模型调优指南》——你的推理任务,准备好迎接「小米效率」了吗?

🚀 快速阅读

小米开源的首个推理大模型MiMo突破参数规模限制。

  1. 能力:7B参数实现数学推理与代码生成双重突破
  2. 技术:采用三阶段预训练+强化学习优化框架

Xiaomi MiMo 是什么

Xiaomi MiMo

Xiaomi MiMo 是小米推出的开源推理大模型,通过创新的训练框架在7B参数规模下实现超越更大模型的推理性能。其核心突破在于联动预训练与后训练阶段,专门针对复杂推理任务进行优化。

该模型包含4个版本:基础预训练模型、监督微调模型及两个强化学习版本,均已开源。技术报告显示,MiMo在数学推理和代码生成任务中显著优于部分32B参数规模的竞品模型。

Xiaomi MiMo 的主要功能

  • 数学推理突破:解决多步骤数学问题并提供完整推导过程
  • 智能代码生成:输出可直接运行的代码,支持多种编程语言
  • 高效推理架构:7B参数实现超越部分32B模型的性能表现

Xiaomi MiMo 的技术原理

  • 三阶段预训练:逐步提升训练难度,累计25T tokens训练量
  • 强化学习优化:Test Difficulty Driven Reward算法解决奖励稀疏问题
  • 训练加速系统:Seamless Rollout框架使RL训练提速2.29倍
  • 数据策略创新:Easy Data Re-Sampling稳定强化学习过程

如何运行 MiMo-7B

vLLM 推理

1. 推荐使用我们分叉的 vLLM

我们官方支持使用 MiMo-MTP 进行推理,使用 我们分叉的 vLLM

示例脚本:

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
   
        "role": "system",
        "content": ""
    },
    {
   
        "role": "user",
        "content": "写一篇关于高等教育重要性的文章。",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"提示: {prompt!r}, 生成的文本: {generated_text!r}")

print("=" * 80)

2. 或者,你可以注册一个不加载 MTP 参数的 vLLM 加载器

你可以将 registry/register_mimo_in_vllm.py 复制到你的目录中,并通过以下方式导入:

import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

HuggingFace 推理

示例脚本:

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_path = "/path/to/MiMo"
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_path)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(output.tolist()[0]))

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
555 4
|
2月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
988 8
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
316 2
|
2月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
1564 38
【万字长文】大模型训练推理和性能优化算法总结和实践
|
2月前
|
人工智能 安全 开发工具
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
本文介绍基于Qwen3-Coder、RAG与Iflow在C3级代码仓库落地LLM代码评审的实践,实现AI辅助人工评审。通过CI流水线自动触发,结合私域知识库与生产代码同仓管理,已成功拦截数十次高危缺陷,显著提升评审效率与质量,具备向各类代码门禁平台复用推广的价值。(239字)
496 24
|
2月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
377 10
|
2月前
|
机器学习/深度学习 存储 缓存
大模型推理加速技术:PagedAttention原理与实现
本文深入解析大语言模型推理中的革命性技术——PagedAttention,该技术是vLLM推理引擎的核心创新。通过将操作系统中的虚拟内存分页概念引入注意力机制,PagedAttention有效解决了KV缓存的内存碎片问题,实现了近乎零浪费的KV缓存管理。文章详细阐述其原理、内存管理机制、实现细节,并提供完整的代码示例和性能分析。
299 1
|
2月前
|
存储 数据采集 自然语言处理
56_大模型微调:全参数与参数高效方法对比
随着大型语言模型(LLM)规模的不断增长,从数百亿到数千亿参数,传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年,大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践,为研究者和工程师提供全面的技术参考。

热门文章

最新文章