MiniCPM-V 4.6 开源:1.3B 多模态模型登顶同尺寸榜单,6G 内存跑通手机端

简介: 5月11日,面壁智能联合清华、OpenBMB开源新一代端侧多模态大模型MiniCPM-V 4.6。仅1.3B参数,性能登顶同尺寸全球第一,超越Qwen3.5-0.8B与Gemma4-E2B-it;仅需6GB内存即可流畅运行,支持iOS/Android/HarmonyOS。首创ViT早压缩与4倍/16倍混合Token压缩技术,实现“低内存、极速跑”,推动AGI普惠落地。

5 月 11 日,面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型:MiniCPM-V 4.6。

这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。

尤其在内存价格飞涨的当下,MiniCPM-V 4.6 只需 6G 内存即可在端侧流畅运行,真正实现了「低内存、极速跑」。这不仅极大降低了多模态大模型在各类智能终端上的落地门槛,也让面壁智能「智周万物」(AGI for Lives)的愿景离我们更近了一步。


开源地址:

本次开源同时提供 Testflight 测试版本,可以在 iOS、Android、HarmonyOS 系统的手机端使用。

➤  GitHub

🔗 https://github.com/OpenBMB/MiniCPM-V

➤  ModelScope

🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

➤  APP Demo

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps

性能拔群,1.3B 实现同尺寸最佳

根据多个权威基准评测,MiniCPM-V 4.6 的两个版本(Instruct 与 Thinking)多模态综合能力均表现卓越,实现了全维度领跑。

  • Instruct 版本:在通用图文理解、STEM 数理推理、文档 OCR、视频时序理解及目标定位等任务上,全面超越 Qwen3.5-0.8B、Gemma4-E2B-it 等模型。


  • Thinking 版本:在多图像关联推理、幻觉抑制等高阶任务中,同样几乎全面领先。


在最新的 Artificial Analysis(AA)榜单评测中,MiniCPM-V 4.6 更是以 13 分 的优异成绩跻身前列,超越了包括 Mistral 3-3B、Qwen 3.5-0.8B 在内的一众模型,成绩逼近 Qwen 3.5-2B,成为 1B 级开源模型中当之无愧的性能标杆。


效率反超,重新定义「智能密度」

除了性能惊艳,MiniCPM-V 4.6 在效率上也取得了堪称「反常识」的突破。

尽管参数规模比 Qwen3.5-0.8B 更大,但 MiniCPM-V 4.6 的运行效率却更快,实现了惊人的反超

  • 推理吞吐量:基于 vLLM 的 token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍;
  • 计算成本:在 AA 评测中,仅用 2.5% 的 token 消耗(5.4M vs 233M)就超越了 Qwen3.5-0.8B。

这意味着 MiniCPM-V 4.6 以极小的计算成本,撬动了极高的智能水平,是面壁智能「密度定律」的又一实践。

由此,用同样的硬件,开发者可以承载数倍的线上流量,或在端侧实现更极致的响应速度。

这一飞跃,让市面上几乎所有的个人设备(手机、电脑)都可以将 MiniCPM-V 4.6 高效地跑起来。

极致背后的硬核创新

惊人的性能与效率背后,是两大底层技术的硬核创新。

ViT 架构重构:图像编码计算量锐减 50%

视觉编码器(ViT)是多模态模型处理图像信息的核心组件,也是计算开销最集中的环节之一。

MiniCPM-V 4.6 采用了面壁智能与清华大学联合研发的最新 LLaVA-UHD v4 技术,通过创新的 「ViT 内部视觉 token 早压缩」,在保证性能不掉点的前提下,大幅降低了视觉 token 的数量和计算量,相比传统 ViT 将图像编码开销锐减了 50%

针对模型在处理高分辨率图像时的视觉编码效率问题,LLaVA-UHD v4 提出了一种高效的编码范式,可以在超越原有性能的同时,将视觉编码阶段的浮点运算量降低 55.8%


LLaVA-UHD v4 论文链接:

https://www.modelscope.cn/papers/2605.08985


LLaVA-UHD v4 主要包含两个核心设计:

  • 高效切片编码:替代传统的全局编码,将高分辨率图像切分为多个区块处理,结构性地避免了注意力计算量随分辨率二次方增长的瓶颈。
  • ViT 内早期压缩:在 ViT 的浅层就引入压缩模块,让后续绝大部分 ViT 层只需处理极少量 Token,从根源上降低了计算量。

这一改造,与 16倍 token 压缩协同工作,协同实现了极致的轻量化推理——用更少的计算资源,完成同等质量的图像理解任务。这也造就了 MiniCPM-V 4.6「参数更大,但跑得更快」的效率奇迹。

4倍/16倍混合 Token 压缩:性能与速度,按需切换

业界多模态基座模型普遍采用固定的 4 倍视觉 token 压缩率,而 MiniCPM-V 4.6 则打破常规,提供了业界领先的双模式切换

  • 4 倍压缩模式(性能优先):适合高要求的文档解析、密集文字识别等细节敏感型任务;
  • 16 倍压缩模式(速度优先):适合实时交互、低算力环境、高并发部署等场景。

同一个模型,两种选择,开发者无需在性能和速度之间艰难取舍。

视觉 token 压缩率会影响到显存占用、首响延迟、推理吞吐、功耗等众多关键效率指标,压缩率越高、响应速度越快。MiniCPM-V 多模态大模型从 2024 年就推出了 16 倍压缩率,在行业内领先。

值得一提的是,面壁智能开创性的 16 倍压缩技术早已在产业界得到验证,例如快手在 2025 年发布的推荐大模型 OneRec,在处理海量视频多模态特征时便应用了 MiniCPM-V 系列模型,成功支撑了主场景 25% 的巨大流量请求。

得益于 16 倍视觉 Token 压缩这一核心技术,MiniCPM-V 4.6 在推理效率的两大关键维度上同时建立起显著优势:

1)在单并发首响延迟(TTFT)上,它把“分辨率—延迟”曲线压得几乎平坦,3136² 高清大图的 TTFT 仅 75.7 ms,较同基座规模的 Qwen3.5-0.8B 快 2.2 倍


2)在高并发吞吐上,单卡可达 7013 token/s、54.79 张/s 的 1344² 图片处理能力,是 Qwen3.5-0.8B 的 1.5 倍,意味着同样的硬件可以承载数倍的线上流量


这两个维度的数值指标,共同指向同一结论:

MiniCPM-V 4.6 用更短的视觉序列、更小的 KV-Cache,把多模态推理的端侧体感与云侧 ROI 同时推到了新的高度

根据 AA 榜单评测,MiniCPM-V 4.6 1.3B(非推理版本)的运行仅消耗 5.4M token 量,仅为 Qwen3.5-0.8B(非推理版本,101M)的 1/19 与 Qwen 3.5-0.8B(推理版本,233M)的 1/43,模型智能密度为同尺寸模型范围内最高



模型微调

MiniCPM-V4.6官方原生支持 ms-swift 与 LLaMA-Factory 等业内最受欢迎的微调框架。开发者只需准备好场景数据,和一张 RTX 4090 等常见的消费级显卡,修改几行配置,一键即可拉起专属模型的训练。


1、ms-swift 微调

ms-swift day0 支持了 MiniCPM-V-4.6 系列模型的微调,包括文本、图像、视频模态。ms-swift是魔搭社区官方提供的大模型训练框架,开源地址:https://github.com/modelscope/ms-swift


环境准备:

# pip install git+https://github.com/modelscope/ms-swift.git
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .
pip install transformers -U

可直接运行训练脚本如下:

# 10GiB
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model OpenBMB/MiniCPM-V-4.6 \
    --dataset 'AI-ModelScope/LaTeX_OCR:human_handwrite#20000' \
    --load_from_cache_file true \
    --split_dataset_ratio 0.01 \
    --tuner_type lora \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --freeze_vit true \
    --freeze_aligner true \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataset_num_proc 4 \
    --dataloader_num_workers 4

对验证集进行推理:

CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --load_data_args true \
    --enable_thinking false

如果您需要自定义数据集微调模型,你可以将数据准备成以下格式:

{"messages": [{"role": "user", "content": "浙江的省会在哪?"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}
{"messages": [{"role": "user", "content": "<image>两张图片有什么区别"}, {"role": "assistant", "content": "前一张是小猫,后一张是小狗。"}], "images": ["/xxx/x.jpg"]}
{"messages": [{"role": "user", "content": "<video>视频中是什么"}, {"role": "assistant", "content": "视频中是一只小狗在草地上奔跑。"}], "videos": ["/xxx/x.mp4"]}

推送微调后的模型到ModelScope:

swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

2、LLaMA-Factory 微调

以图片计数任务作为微调任务,使用LLaMA-Factory微调请参考以下步骤:

环境安装:

conda create -n "MiniCPM-V-4.6-Counting" python=3.11 -y
conda activate "MiniCPM-V-4.6-Counting"
pip install torch==2.8.0 torchvision==0.23.0
pip install \
  transformers==5.7.0 accelerate==1.13.0 \
  deepspeed==0.18.3 peft==0.18.1 trl==0.24.0 \
  wandb ninja einops safetensors tokenizers sentencepiece
MAX_JOBS=32 NVCC_THREADS=4 pip install --no-build-isolation flash-attn==2.8.3
git clone https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .
pip install -r requirements/metrics.txt -r requirements/deepspeed.txt

数据准备:

数据格式参考

{
    "messages": [
        {
            "content": "<image>\nCarefully observe the image. Are there any people in the image? If yes, please list their respective coordinates and provide the total count. If no, answer 0.",
            "role": "user"
        },
        {
            "content": "<think>\n\n</think>\n\nThe respective coordinates of people: <point>236 469</point>, <point>307 232</point>, <point>362 434</point>, <point>485 521</point>, <point>487 340</point>, <point>615 386</point>, <point>735 441</point>, <point>870 615</point>. So the total count is 8.",
            "role": "assistant"
        }
    ],
    "images": [
        "/path/to/images/*.jpg"
    ],
    "source_file": "pixmo-count",
    "orig_index": 1,
    "channel": "pixmo-count"
}

模型训练:

在train.yaml中配置好模型路径、训练集路径、验证集路径和输出目录后,执行以下脚本即可以开始训练。

#!/bin/bash
set -euo pipefail
export CUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:-0,1,2,3,4,5,6,7}"
export NPROC_PER_NODE="${NPROC_PER_NODE:-8}"
export MASTER_PORT="${MASTER_PORT:-29632}"
export WANDB_API_KEY="${WANDB_API_KEY:-}"
export WANDB_PROJECT="${WANDB_PROJECT:-MiniCPMV46-Counting}"
export WANDB_RUN_NAME="${WANDB_RUN_NAME:-mcpmv46_count}"
export WANDB_NAME="${WANDB_NAME:-mcpmv46_count}"
# MiniCPMV 4.6 downsample mode: 4x for high-resolution, 16x for default
export DOWNSAMPLE_MODE="${DOWNSAMPLE_MODE:-4x}"
export DISABLE_VERSION_CHECK=1
# Activate the lfv46 conda environment
# IMPORTANT: Unset USE_V1 to use the v2 launcher
unset USE_V1
CONFIG_FILE="$(dirname "$0")/train.yaml"
OUTPUT_DIR="${OUTPUT_DIR:-/path/to/output_dir}"
echo "Training with config: $CONFIG_FILE"
echo "Output dir: $OUTPUT_DIR"
llamafactory-cli train "$CONFIG_FILE"

模型部署

官方适配了 vLLM、SGLang、llama.cpp、Ollama 等顶级高性能推理框架,请参考以下链接:

1、vLLM

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm.md


2、SGLang

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang.md


3、llama.cpp

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp_zh.md


4、Ollama

中文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

英文:🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama.md


端侧部署保姆级教程

OpenBMB官方同时提供了详尽的端侧部署指南,助你轻松上手:

➤  英文

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md

➤  中文

🔗 https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.md

目录
相关文章
|
8天前
|
SQL 缓存 druid
一次 OOM 线上排查实录
老项目线上 OOM 踩坑实录!Druid 连接池 SQL 缓存泄漏 + 业务 SQL 拼接双重叠加导致内存溢出,通过堆 dump 定位问题,优化 Druid 配置 + 批量插入预防 OOM。
143 2
|
29天前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
3471 10
|
11天前
|
JSON NoSQL API
开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来
Redis作者antirez新开源项目ds4(DwarfStar 4),是专为DeepSeek V4 Flash设计的轻量级本地推理引擎。聚焦Agent场景,支持OpenAI/Anthropic API、Disk KV Cache复用、工具调用精准映射与长上下文优化,在MacBook等高端个人设备上实现高效端到端推理。
318 3
开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来
|
25天前
|
消息中间件 缓存 API
DeepSeek-V4 核心能力落地与实战应用指南:从底层机制到多智能体架构复盘
本文以SaaS架构师视角,深度解析DeepSeek-V4在真实生产环境中的工程落地:聚焦上下文缓存优化、强约束JSON输出、多智能体协同调度,并分享高并发下的三大避坑实战指南,助力开发者高效构建AI原生应用。
633 6
|
11天前
|
弹性计算 人工智能 缓存
阿里云轻量应用服务器2核2G38元、2核4G9.9元起:配置解析、适用场景与选购指南
2026年阿里云轻量应用服务器抢购活动提供两大核心配置:2核2G(200M峰值带宽+40G ESSD盘)抢购价38元/年,适合个人建站与入门学习;2核4G(200M带宽+50G ESSD盘)9.9元/月或199元/年,支持OpenClaw镜像一键部署AI助理。抢购每日10:00和15:00限时开抢,仅限新用户。本文同时对比了ECS 99计划(e实例99元/年、u1实例199元/年,新购续费同价至2027年3月),建议用户根据业务规模、AI需求及长期成本综合选型。
248 14
|
8天前
|
人工智能 IDE 开发工具
Qoder 1.0正式发布!从AI IDE迈向智能体自主开发工作台
阿里发布Qoder 1.0,从AI IDE升级为智能体自主开发工作台:用户只需定义需求,Agent团队即可“自动驾驶”,完成执行、验证与交付全流程。支持Windows/macOS/Linux,集成Quest独立视窗、跨项目并行、团队知识引擎及可定制专家团。
|
12天前
|
人工智能 架构师 测试技术
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
|
1月前
|
人工智能 运维 前端开发
Kimi K2.6开源:编码能力比肩闭源顶级模型,支持300智能体协同
Moonshot AI开源Kimi K2.6,主打长时编码、智能体协同与前端设计生成。在Terminal-Bench 2.0、SWE-Bench Pro等基准上达开源SOTA,逼近GPT-5.4与Claude Opus 4.6;智能体集群扩展至300个子智能体、4000协调步。
1139 6
|
25天前
|
人工智能 数据可视化 C++
OpenClaw 与 Hermes 全面对比与一键部署指南
2026年AI智能体爆发,OpenClaw(24小时在线秘书,适配钉钉/微信等,快速上手)与Hermes(自进化型助理,擅复杂任务与自主学习)成两大热门开源框架。本文深度对比+阿里云一键部署指南,助你零门槛启用AI Agent!
344 14
|
6天前
|
人工智能 自然语言处理 机器人
[开源框架-实战]用 Hermes Agent 搭一个微信播报机器人
30 分钟,零 Python 代码,搭出一个每天早上 9 点把 GitHub Trending 推送到你微信的机器人。顺带把 Hermes 的 Skill、Gateway、Cron 四个招牌能力全用上。
190 8

热门文章

最新文章