备案控制台

图像识别

# 图像识别 #

0 关注

1223内容

相关子社区

ModelScope模型即服务

14484内容 6活动 3792关注

最新热门文章问答视频训练营活动

喜欢猪猪

|

9月前

|

博文

|

来自： ModelScope模型即服务

JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型

随着大模型的越来越盛行，现在很多企业开始接入大模型的接口，今天我从java开发角度来写一个demo的示例，用于接入DeepSeek大模型，国内的大模型有很多的接入渠道，今天主要介绍下阿里云的百炼模型，因为这个模型是免费的，只要注册一个账户，就会免费送百万的token进行学习，今天就从一个简单的可以执行的示例开始进行介绍，希望可以分享给各位正在学习的同学们。

# 图像识别 # 机器学习/深度学习 # 人工智能 # NoSQL # 搜索推荐 # Java

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

AIMv2：苹果开源多模态视觉模型，自回归预训练革新图像理解

AIMv2 是苹果公司开源的多模态自回归预训练视觉模型，通过图像和文本的深度融合提升视觉模型的性能，适用于多种视觉和多模态任务。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # PyTorch # 算法框架/工具

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

AppAgentX：告别重复点击！自我进化式GUI代理自动生成高级操作，效率翻倍

AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架，通过记忆和进化机制提升智能手机交互的效率和智能性，支持复杂任务和跨应用操作，显著优于现有方法。

# 图像识别 # 存储 # 人工智能 # API # Android开发 # 容器

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构，总参数量16B推理时仅激活2.8B，支持128K上下文窗口与高分辨率视觉输入，通过长链推理微调和强化学习实现复杂任务处理能力。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 网络架构 # 异构计算

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。

# 图像识别 # 人工智能 # 中间件 # API # 语音技术 # 开发者

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具，支持灵活的本地或云端部署。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 文字识别 # API

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架，能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型（MLLM），支持多角色控制和精确布局控制，适用于漫画创作、个性化内容生成等多个领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 搜索推荐 # 计算机视觉

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集，旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及多种环境，能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

# 图像识别 # 数据采集 # 人工智能 # 自动驾驶 # 机器人 # 测试技术

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

OmAgent：轻松构建在终端设备上运行的 AI 应用，赋能手机、穿戴设备、摄像头等多种设备

OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架，支持多设备连接、高效模型集成，助力开发者快速构建复杂的多模态代理应用。

# 图像识别 # 人工智能 # 算法 # 前端开发 # NoSQL # 开发者

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Qwen2.5-VL-32B：阿里开源多模态核弹！32B模型吊打自家72B，数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型，在数学推理、视觉问答等任务中超越前代72B版本，支持图像细粒度理解和复杂逻辑分析，已在HuggingFace开源。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 决策智能 # 计算机视觉

1

...

16

17

18

19

20

免费试用