魔搭中文开源模型社区:模型即服务-通用多模态AI构建(上)

简介: 魔搭中文开源模型社区:模型即服务

 

作者:周畅阿里巴巴达摩院智能计算实验室

 

一、 OFA简介

 

image.png

 

2021年,达摩院智能计算实验室开发了M6动态模型。一方面,研究万亿级的大模型低碳训练技术;另一方面,研究大模型服务化技术,并在各行各业应用了文生图原子能力,以及图到文原子能力。

 

image.png

 

2022年,达摩院更关注多模态模型如何能够更通用,所以今年主打的模型系列叫OFA,希望它能像人一样,只使用一个模型就能处理尽可能多的日常事务。

 

image.png

 

目前,通用模型有两条技术路线。第一种是表征模型,它只做一件事情,把不同模态的数据,从原始Format映射到深度学习模型的数据分布上。

 

第二种技术路线是GPT-3,即通用任务模型。它是历史上第一个能够把任务描述直接建模在模型里,并取得真实效果的模型。

 

image.png

 

2022年2月,达摩院推出了VL prototype,并开源了源代码,在半年多的时间里,收获了不少国内外团队的关注和使用。

 

OFA对于所有任务会共享一套结构,它和人一样通过听任务指令,就能完成日常基本的跨模态数据操作。OFA试图将模型设计和任务设计解耦开来,让使用者更关注任务表示,而不是AI模型设计。

 

image.png

 

如上图所示,给模型一张图,然后用一段文本叙述图片的内容。如果用户在OFA的基础上进行识别,只需要一行代码即可。

 

image.png

 

由于OFA是基于instruction做多任务预训练,模型类似T0能够根据对任务指令的理解,做一些没有学过的任务。如上图所示,模型只需要根据输入的问题以及给定的坐标进行离散化表示,就能做出相应的正确回答。

 

image.png

 

目前,OFA-speech在中文AISHELL-1上取得大幅优势,dev/test集字错误率仅为1.6%/1.9%。

 

image.png

 

如上图所示,OFA可以通过文本的形式,解决数独问题,准确率高达100%。

 

image.png

 

除此之外,OFA还可以进行视频游戏。如上图所示,用户可以输入一段Instruction,根据视频逐帧采取相应的行动。

 

image.png

 

如上图所示,OFA还可以驱动一个3D数字人,且仍然使用相同的模型。当用户输入一段话后,它可以根据指令做一个3D motion。最后,进行渲染。

 

image.png

 

目前,OFA在ModelScope社区开源的模型主要有OFA图像描述、OFA视觉问答、OFA文生图模型等等。

 

image.png

 

OFA是达摩院M6团队研发的通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态和任务。如图片生成、视觉定位、图片描述、图片分类、文本生成等。

 

该工作已经发表在ICML 2022上,得到了Google Brain,DeepMind,Microsoft等一线多模态大模型玩家的引用和关注。目前,已经有60多个学术界论文引用了OFA。

 

OFA践行了One For All的理念,同时也在多模态和单模态任务上都得到了较好的结果,如Image Captioning(CIDEr 154.9)、VQA(acc 82.0)、ImageNet-1ktop-1 acc 85.6、Gigaword(Rouge-1 39.81)等等。

 

image.png

 

目前,ModelScope上面所有已经上传的模型和任务,都可以在下面导航表格看到,点击链接可以跳转到相应Model Card。

 

image.png

 

与此同时,OFA还有在线体验功能。用户可以上传图片,进行体验。

 

image.png

 

如上图所示,是基于ModelScope上的OFA通用的预训练模型底座,通过二次开发得到图像文字识别微调模型,并使用基础模型进行推理。用户可以通过构造trainer,并基于图像文字识别数据集进行训练。

 


相关文章
|
2月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
2765 166
|
2月前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
2188 64
|
2月前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
757 6
|
2月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
1297 16
构建AI智能体:一、初识AI大模型与API调用
|
2月前
|
存储 机器学习/深度学习 人工智能
构建AI智能体:三、Prompt提示词工程:几句话让AI秒懂你心
本文深入浅出地讲解Prompt原理及其与大模型的关系,系统介绍Prompt的核心要素、编写原则与应用场景,帮助用户通过精准指令提升AI交互效率,释放大模型潜能。
558 5
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
583 41
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
469 30
|
3月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
939 47