社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。

,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。



据悉,达摩院模块化多模态对话大模型mPLUG-Owl进行了大升级,通过加入细粒度预训练,多样性的指令微调提升模型多维度综合能力。除本次在MMBench登顶的优异成绩外,多模态模块化基础模型mPLUG-2也获得CVPR2023 STAR Challenge Best Performance Award,论文已被ICML2023接收。


模型架构与训练


mPLUG-Owl采用两阶段训练策略混合指令增强提升模型多维度综合能力:

一阶段:训练视觉相关的模块(Visual Encoder和Visual Abstractor),使得模型能够关联视觉知识和文本知识的能力;


二阶段:将对齐好的视觉模块的文本模型进行冻结,利用非常少量的参数(~4M)对语言模型进行微调;


混合指令增强:基于文本和多模态数据联合训练,使得其能够在保证文本能力的基础上理解多模态的指令。


ModelScope实战

快速上手mPLUG系列模型,仅需在ModelScope中搜索mPLUG,即可出现mPLUG相关模型


接下来,我们以图像描述和多模态对话为例,用户需安装最新版的ModelScope。


图像/视频描述

于图像描述或者视频描述,用户仅需提供一张图像或者视频的链接,并使用以下代码:

# 图像描述
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
model_id = 'damo/mplug_image-captioning_coco_base_en'
input_caption = 'https://alice-open.oss-cn-zhangjiakou.aliyuncs.com/mPLUG/image_captioning.png'
pipeline_caption = pipeline(Tasks.image_captioning, model=model_id)
result = pipeline_caption(input_caption)
print(result)
# >>> {'caption': 'the man is angry'}
# 视频描述
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
model_id = 'damo/multi-modal_hitea_video-captioning_base_en'
input_caption = 'http://xke-repo.oss-cn-hangzhou.aliyuncs.com/models/release/vid_hitea_videocap.avi'
pipeline_caption = pipeline(Tasks.video_captioning, model=model_id)
result = pipeline_caption(input_caption)
print(result)
# >>> {'caption': 'potato is being peeled'}


多模态对话

对于多模态对话,用户需要提供想要问的问题或者图片,即可获得回复:

from modelscope.pipelines import pipeline
chatbot = pipeline('multimodal-dialogue', 'damo/multi-modal_mplug_owl_multimodal-dialogue_7b')
image = 'http://mm-chatgpt.oss-cn-zhangjiakou.aliyuncs.com/mplug_owl_demo/released_checkpoint/portrait_input.png'
system_prompt_1 = 'The following is a conversation between a curious human and AI assistant.'
system_prompt_2 = "The assistant gives helpful, detailed, and polite answers to the user's questions."
messages = {
    'messages': [
        {'role': 'system', 'content': system_prompt_1 + ' ' + system_prompt_2},
        {'role': 'user', 'content': [{'image': image}]},
        {'role': 'user', 'content': 'Describe the mood of the man.'},
    ]
}
print(chatbot(messages))
# >>> {'text': 'The man is angry and frustrated, as he is clenching his fists and scowling.'}

除了上述mPLUG-Owl的多模态对话模型,我们还在ModelScope上提供包括多模态图像问答、图像描述、图像检索、视频描述、视频问答、预训练模型等数款涵盖中英文的mPLUG系列模型,欢迎体验与使用。


创空间体验

我们在创空间上提供了mPLUG-Owl系列模型的多模态对话Demo,可在线体验,用户仅需在创空间首页搜索mPLUG,即可体验英语版和多语言版的mPLUG-Owl,文档大模型mPLUG-DocOwl。


英文版:

https://www.modelscope.cn/studios/damo/mPLUG-Owl/summary


多语言版:

https://www.modelscope.cn/studios/damo/mPLUG-Owl-Bilingual/summary


文档大模型:

https://www.modelscope.cn/studios/damo/mPLUG-DocOwl/summary


进入对应的创空间后,用户仅需上传图片/视频,即可与mPLUG-Owl进行对话:


示例一:


示例二:


示例三:


示例四:


示例五


https://www.modelscope.cn/studios/damo/mPLUG-Owl-Bilingual/summary



相关文章
|
1月前
|
存储 人工智能 编解码
大模型检索X一键成片,巴黎奥运的AI新演绎
巴黎奥运会,AI上演媒体新科技。
96 10
大模型检索X一键成片,巴黎奥运的AI新演绎
|
30天前
|
机器学习/深度学习 人工智能 人机交互
ICML 2024:AI也会刷抖音!清华领衔发布短视频全模态理解新模型
【8月更文挑战第20天】SALMONN是由清华大学在ICML 2024发表的一种开创性的多模态模型,专为短视频全模态理解设计。它集成了预训练文本大模型与语音、音频编码器,能直接处理多样音频输入,在自动语音识别、翻译、情绪识别等任务中表现出色。SALMONN展现了令人兴奋的新能力,如翻译未训练语言和基于语音的问答。通过少样本激活微调,可进一步发掘其跨模态潜能。尽管如此,模型的计算成本和泛化能力仍是待克服的挑战。SALMONN标志着AI在具备通用听觉理解方面迈出重要一步。[论文链接: https://arxiv.org/abs/2310.13289]
50 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
哈佛、麻省推出面向医学多模态助手—PathChat
【7月更文挑战第18天】哈佛+麻省理工推出PathChat,多模态AI助手革新医学病理学。融合Vision-Language模型,PathChat能处理自然语言和医学图像,提供高准确性的诊断支持与文本描述。在实验中,其性能超越同类产品,但面临数据偏见、可解释性及临床应用验证的挑战。[ Nature article: https://www.nature.com/articles/s41586-024-07618-3 ]**
84 3
|
3月前
|
人工智能 人机交互 语音技术
让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo
BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。
|
4月前
|
人工智能 搜索推荐
杨笛一新作:社恐有救了,AI大模型一对一陪聊,帮i人变成e人
【4月更文挑战第24天】杨笛一团队研发的AI大模型,以“AI伙伴”和“AI导师”框架帮助社恐人群提升社交技能。通过模拟真实场景和个性化反馈,该方法降低训练门槛,增强学习者自信。但也有挑战,如保持AI模拟的真实性,防止反馈偏见,并避免过度依赖。研究强调,AI应作为辅助工具而非替代。[论文链接](https://arxiv.org/pdf/2404.04204.pdf)
61 1
|
4月前
|
人工智能
看了OpenAI 发布文生视频模型 Sora,短视频、AI 视频行业、传统的影视公司等要悬了吗!
如果非要用三个词来总结Sora,那就是“60s超长长度”、“超强语义理解”和“世界模型”。
|
4月前
|
数据采集 人工智能 JSON
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)【2月更文挑战第1天】
 跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
|
人工智能 算法 机器人
AI技术让手办「整活」:3D建模居然可以这样简单
AI技术让手办「整活」:3D建模居然可以这样简单
212 0
AI技术让手办「整活」:3D建模居然可以这样简单
|
算法 自动驾驶 测试技术
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
577 0
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
|
达摩院 文字识别 物联网
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
266 0