社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench

简介: 近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。

,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。



据悉,达摩院模块化多模态对话大模型mPLUG-Owl进行了大升级,通过加入细粒度预训练,多样性的指令微调提升模型多维度综合能力。除本次在MMBench登顶的优异成绩外,多模态模块化基础模型mPLUG-2也获得CVPR2023 STAR Challenge Best Performance Award,论文已被ICML2023接收。


模型架构与训练


mPLUG-Owl采用两阶段训练策略混合指令增强提升模型多维度综合能力:

一阶段:训练视觉相关的模块(Visual Encoder和Visual Abstractor),使得模型能够关联视觉知识和文本知识的能力;


二阶段:将对齐好的视觉模块的文本模型进行冻结,利用非常少量的参数(~4M)对语言模型进行微调;


混合指令增强:基于文本和多模态数据联合训练,使得其能够在保证文本能力的基础上理解多模态的指令。


ModelScope实战

快速上手mPLUG系列模型,仅需在ModelScope中搜索mPLUG,即可出现mPLUG相关模型


接下来,我们以图像描述和多模态对话为例,用户需安装最新版的ModelScope。


图像/视频描述

于图像描述或者视频描述,用户仅需提供一张图像或者视频的链接,并使用以下代码:

# 图像描述
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
model_id = 'damo/mplug_image-captioning_coco_base_en'
input_caption = 'https://alice-open.oss-cn-zhangjiakou.aliyuncs.com/mPLUG/image_captioning.png'
pipeline_caption = pipeline(Tasks.image_captioning, model=model_id)
result = pipeline_caption(input_caption)
print(result)
# >>> {'caption': 'the man is angry'}
# 视频描述
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
model_id = 'damo/multi-modal_hitea_video-captioning_base_en'
input_caption = 'http://xke-repo.oss-cn-hangzhou.aliyuncs.com/models/release/vid_hitea_videocap.avi'
pipeline_caption = pipeline(Tasks.video_captioning, model=model_id)
result = pipeline_caption(input_caption)
print(result)
# >>> {'caption': 'potato is being peeled'}


多模态对话

对于多模态对话,用户需要提供想要问的问题或者图片,即可获得回复:

from modelscope.pipelines import pipeline
chatbot = pipeline('multimodal-dialogue', 'damo/multi-modal_mplug_owl_multimodal-dialogue_7b')
image = 'http://mm-chatgpt.oss-cn-zhangjiakou.aliyuncs.com/mplug_owl_demo/released_checkpoint/portrait_input.png'
system_prompt_1 = 'The following is a conversation between a curious human and AI assistant.'
system_prompt_2 = "The assistant gives helpful, detailed, and polite answers to the user's questions."
messages = {
    'messages': [
        {'role': 'system', 'content': system_prompt_1 + ' ' + system_prompt_2},
        {'role': 'user', 'content': [{'image': image}]},
        {'role': 'user', 'content': 'Describe the mood of the man.'},
    ]
}
print(chatbot(messages))
# >>> {'text': 'The man is angry and frustrated, as he is clenching his fists and scowling.'}

除了上述mPLUG-Owl的多模态对话模型,我们还在ModelScope上提供包括多模态图像问答、图像描述、图像检索、视频描述、视频问答、预训练模型等数款涵盖中英文的mPLUG系列模型,欢迎体验与使用。


创空间体验

我们在创空间上提供了mPLUG-Owl系列模型的多模态对话Demo,可在线体验,用户仅需在创空间首页搜索mPLUG,即可体验英语版和多语言版的mPLUG-Owl,文档大模型mPLUG-DocOwl。


英文版:

https://www.modelscope.cn/studios/damo/mPLUG-Owl/summary


多语言版:

https://www.modelscope.cn/studios/damo/mPLUG-Owl-Bilingual/summary


文档大模型:

https://www.modelscope.cn/studios/damo/mPLUG-DocOwl/summary


进入对应的创空间后,用户仅需上传图片/视频,即可与mPLUG-Owl进行对话:


示例一:


示例二:


示例三:


示例四:


示例五


https://www.modelscope.cn/studios/damo/mPLUG-Owl-Bilingual/summary



相关文章
|
2月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
112 1
|
2月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1609 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
380 121
|
2月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
238 113
|
2月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
295 114
|
2月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
267 117
|
4月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
575 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
665 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型