ModelScope模型即服务-文章-第32页-阿里云开发者社区

蚝油菜花

|

人工智能语音技术 iOS开发

|

博文

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

MiniCPM-o 2.6 是面壁智能开源的多模态大模型，支持视觉、语音和多模态直播，性能媲美GPT-4o，能够在端侧设备上高效运行。

1241 10 10

来自：多模态版块

modelscope

|

测试技术

|

博文

Valley2，基于电商场景的多模态大模型

Valley2是一种新颖的多模态大型语言模型，旨在通过可扩展的视觉-语言设计增强各个领域的性能，并拓展电子商务和短视频场景的实际应用边界。

776 3 3

蚝油菜花

|

数据采集人工智能自然语言处理

|

博文

Riona-AI-Agent：自媒体 AI 代理！自动点赞、评论、个性化内容生成和发布等交互任务

Riona-AI-Agent 是一款基于 Node.js 和 TypeScript 的 AI 自动化工具，支持 Instagram、Twitter 等平台的自动化交互，生成高质量内容，提升社交媒体管理效率。

1528 13 13

来自：多模态版块

蚝油菜花

|

存储人工智能图计算

|

博文

MiniRAG：迷你 RAG 系统加成小型语言模型，爆发出与大型语言模型相当的性能

MiniRAG 是香港大学推出的新型 RAG 系统，专为资源受限场景设计，支持高效知识检索与推理，适用于多种应用场景。

692 12 13

来自：自然语言处理版块

蚝油菜花

|

人工智能文字识别异构计算

|

博文

NVIDIA-Ingest：英伟达开源智能文档提取及结构化工具，支持 GPU 加速和并行处理

NVIDIA-Ingest 是英伟达开源的智能文档提取工具，支持 PDF、Word、PPT 等多种格式，提供并行处理和 GPU 加速，适用于企业内容管理和生成式应用。

808 18 19

来自：多模态版块

蚝油菜花

|

人工智能开发框架自然语言处理

|

博文

Eko：一句话就能快速构建复杂工作流的 AI 代理开发框架！快速实现自动操作电脑和浏览器完成任务

Eko 是 Fellou AI 推出的开源 AI 代理开发框架，支持自然语言驱动，帮助开发者快速构建从简单指令到复杂工作流的智能代理。

1890 12 13

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Emotion-LLaMA：用 AI 读懂、听懂、看懂情绪，精准捕捉文本、音频和视频中的复杂情绪

Emotion-LLaMA 是一款多模态情绪识别与推理模型，融合音频、视觉和文本输入，通过特定情绪编码器整合信息，广泛应用于人机交互、教育、心理健康等领域。

1618 11 12

来自：多模态版块

蚝油菜花

|

人工智能供应链 PyTorch

|

博文

TimesFM 2.0：用 AI 预测流量、销量和金融市场等走势！谷歌开源超越统计方法的预测模型

TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型，支持长达2048个时间点的单变量预测，具备零样本学习能力，适用于零售、金融、交通等多个领域。

2370 24 27

来自：科学计算版块

蚝油菜花

|

人工智能编解码测试技术

|

博文

ViTPose：最小只有100M的身体姿态估计模型，精确识别人体关节、手、脚等关键点

ViTPose 是基于 Transformer 架构的人体姿态估计模型，能够精准定位人体关键点，支持多种规模版本，适用于运动分析、虚拟现实等场景。

943 8 9

来自：计算机视觉版块

CodeFuse

|

JSON Devops 决策智能

|

博文

muAgent v2.2版本发布，支持ekg-sdk使用

CodeFuse-muAgent 是一款创新的 Agent 框架，将知识图谱（KG）直接升级为 Agent 编排引擎。它基于大语言模型（LLM）和事理图谱（EKG），结合多智能体、工具学习等技术，通过拖拽式画布和轻量级文本编辑，实现复杂 SOP 流程的自动化。支持复杂推理、在线协同、人工交互和即时知识应用。该框架已在蚂蚁集团多个 DevOps 场景中成功落地。

525 1 1

modelscope

|

人工智能自然语言处理安全

|

博文

微软phi-4来啦！小模型之光，14B科学、代码等能力超70B模型效果！

微软研究院的最新成果——Phi-4来啦！近日，微软公布了Phi家族的最新一代模型Phi-4的技术报告，模型同步开源，Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的基础上，训练数据量为9.8 T tokens, 目标是确保小模型使用专注于高质量和高级推理的数据进行训练。

1029 1 1

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Agent Laboratory：AI自动撰写论文，AMD开源自动完成科研全流程的多智能体框架

Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架，基于大型语言模型，能够加速科学发现、降低成本并提高研究质量。

1525 23 23

来自：多模态版块

蚝油菜花

|

人工智能知识图谱

|

博文

SVFR：全能视频人脸修复框架，支持提升清晰度、色彩填充和缺失补全等图像修复任务

SVFR 是一个通用视频人脸修复框架，支持人脸修复、着色和修复任务，基于 Stable Video Diffusion 技术，提供高质量的视频修复效果。

1109 23 24

来自：计算机视觉版块

modelscope

|

机器学习/深度学习人工智能自然语言处理

|

博文

通义千问Qwen征文活动获奖公布

Qwen征文获奖公布啦！

920 3 3

蚝油菜花

|

机器学习/深度学习人工智能安全

|

博文

GLM-Zero：智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型，开放在线免费使用和API调用

GLM-Zero 是智谱AI推出的深度推理模型，专注于提升数理逻辑、代码编写和复杂问题解决能力，支持多模态输入与完整推理过程输出。

1156 24 25

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

DeepSeek Artifacts：在线实时预览的前端 AI 编程工具，基于DeepSeek V3快速生成React App

DeepSeek Artifacts是Hugging Face推出的免费AI编程工具，基于DeepSeek V3，支持快速生成React和Tailwind CSS代码，适合快速原型开发和前端组件构建。

2855 39 41

来自：自然语言处理版块

蚝油菜花

|

人工智能 JSON 测试技术

|

博文

Search-o1：人大清华联合推出动态检索推理框架，使模型能够在推理过程中动态检索外部知识

Search-o1 是中国人民大学和清华大学联合推出的创新框架，通过动态知识检索和精炼，提升大型推理模型在复杂任务中的推理能力。

708 23 24

来自：自然语言处理版块

蚝油菜花

|

人工智能并行计算搜索推荐

|

博文

SPAR3D：一张图片就能生成3D模型，每个物体的重建时间仅需0.7秒！

SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法，支持快速推理与用户交互式编辑，适用于多种3D建模场景。

2198 30 32

来自：计算机视觉版块

游客lznx5kkf4njru

|

人工智能运维监控

|

博文

操作系统智能助手OS Copilot新功能测评

本文介绍了操作系统智能助手OS Copilot的新功能测评。作为一名运维工程师，作者分享了安装过程中遇到的小问题及解决方法，并详细描述了使用体验。OS Copilot在回答速度、命令执行和任务处理方面表现一般，但提供了便捷的自动化操作，适合新手学习。作者指出其优点包括深度定制化、简化重复工作和对新手友好；不足之处在于回答不够流畅、汉化程度低且智能化水平有待提高。整体评分6分，未来有提升空间。

608 44 45

来自：科学计算版块

modelscope

|

算法数据可视化测试技术

|

博文

共学 | 2025年，更加有效地搭建Agent

2024年末，Anthropic写了一篇叫做“Building effective Agents”的文章，针对如何有效的搭建Agent，常见Agent工作流程的几种范式，以及对现在的Code Agent工作模式做了详细的解读。本文结合cookbook+ModelScope的免费Qwen API做了一些中文示例的实践，来更好的理解这篇文章。

5240 7 10

蚝油菜花

|

人工智能自然语言处理物联网

|

博文

MultiBooth：清华联合 Meta 推出多对象的图像生成框架，生成包含多个指定对象的图像

MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法，支持高效生成高保真度图像，适用于娱乐、广告、教育等多个领域。

308 19 19

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能搜索推荐

|

博文

Ingredients：无需额外训练的多ID视频生成框架，通过多张人物照片生成定制视频

Ingredients 是一款基于多ID照片与视频扩散Transformer相结合的定制视频生成框架，能够生成高质量、身份一致且内容灵活的视频。

664 19 20

来自：计算机视觉版块

蚝油菜花

|

人工智能达摩院并行计算

|

博文

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术，支持细粒度视频对象理解、复杂关系分析及多模态交互，适用于视频剪辑、教育、安防等多个领域。

838 17 17

来自：计算机视觉版块

蚝油菜花

|

数据采集人工智能算法

|

博文

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型，结合视觉预测与动作执行，显著提升机器人任务成功率。

788 20 20

来自：多模态版块

蚝油菜花

|

机器学习/深度学习数据采集人工智能

|

博文

TransPixar：港中文联合 Adobe 开源透明背景视频生成模型，生成透明背景的 RGBA 视频，助力特效等视觉效果制作

TransPixar 是由港中文、Adobe 等机构联合开源的文本到视频生成技术，支持生成包含透明背景的 RGBA 视频，适用于娱乐、广告、教育等多个领域。

834 22 22

来自：计算机视觉版块

蚝油菜花

|

人工智能编解码自然语言处理

|

博文

Aria-UI：港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型，整合动作历史信息实现更加准确的定位

Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型，专为 GUI 智能交互设计，支持高分辨率图像处理，适用于自动化测试、用户交互辅助等场景。

688 11 12

来自：多模态版块

蚝油菜花

|

机器学习/深度学习编解码人工智能

|

博文

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架，能够将低分辨率视频提升为高分辨率，同时保持细节清晰度和时间一致性。

3254 13 13

来自：计算机视觉版块

蚝油菜花

|

人工智能自然语言处理数据库

|

博文

CHRONOS：阿里通义联合上海交大推出时间线摘要生成框架，适用于大规模新闻数据的时间线生成任务

CHRONOS 是由阿里通义实验室与上海交大联合推出的时间线摘要生成框架，支持开放域与封闭域，通过迭代自问自答机制生成连贯的时间线摘要，适用于新闻、金融、教育等多个领域。

866 15 15

来自：自然语言处理版块

wdzhao

|

机器学习/深度学习人工智能云计算

|

博文

与阿里合作项目荣获2024年度教育部产学合作协同育人项目优秀案例

该项目强调利用阿里云计算有限公司的低代码开发平台和算力资源，开发创新性的教学案例，以支持机器学习和深度学习等前沿技术课程的教学和实验。项目部分成果纳入了即将出版的《深度学习实战案例》教材中，该教材由人民邮电出版社出版。

688 10 10

idea小时

|

人工智能机器人

|

博文

开源了一个项目，小🔥了一把

收集了github上1000个高质量的AI项目，包含了大模型，智能体，提示词工程，微调，模型，RAG，机器人，智能助理等，没想到一天就有这么多star了。

660 5 6

modelscope

|

缓存异构计算

|

博文

DashInfer-VLM，多模态SOTA推理性能，超vLLM！

DashInfer-VLM是一个针对于视觉多模态大模型VLM的推理架构，特别优化了Qwen VL模型的推理加速，DashInfer-VLM和其他的VLM的推理加速框架最大的区别是，它把VIT部分和LLM部分进行了分离，并且VIT和LLM的运行是并行运行，不互相干扰。

1875 16 16

蚝油菜花

|

存储人工智能文字识别

|

博文

VideoRAG：长视频理解的检索增强生成技术，支持多模态信息提取，能与任何 LVLM 兼容

VideoRAG 是一种用于长视频理解的检索增强生成技术，通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型更好地理解和处理长视频内容。

1087 10 10

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能算法

|

博文

Edicho：多图像一致性编辑，支持即插即用无需训练，快速实现风格转换

Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法，基于扩散模型，支持即插即用，无需额外训练，适用于多种图像编辑任务。

386 8 8

来自：计算机视觉版块

蚝油菜花

|

XML 人工智能文字识别

|

博文

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理，能够通过视觉感知自主完成复杂的移动设备操作任务，支持跨应用操作和纯视觉解决方案。

6614 10 10

来自：多模态版块

蚝油菜花

|

人工智能 Python

|

博文

JoyCaption：开源的图像转提示词生成工具，支持多种风格和场景，性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具，支持多种生成模式和灵活的提示选项，适用于社交媒体、图像标注、内容创作等场景，帮助用户快速生成高质量图像描述。

2342 21 22

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习编解码人工智能

|

博文

SeedVR：高效视频修复模型，支持任意长度和分辨率，生成真实感细节

SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型，能够高效修复低质量视频，支持任意长度和分辨率，生成真实感细节。

1039 16 18

来自：计算机视觉版块

蚝油菜花

|

人工智能自然语言处理调度

|

博文

Casevo：开源的社会传播模拟系统，基于 AI 模拟人类认知、决策和社会交互，预测社会传播现象

Casevo 是中国传媒大学推出的开源社会传播模拟系统，结合大语言模型和多智能体技术，支持复杂社会网络建模与动态交互，适用于新闻传播、社会计算等领域。

733 22 22

来自：自然语言处理版块

蚝油菜花

|

人工智能并行计算 PyTorch

|

博文

SPRIGHT：提升文本到图像模型空间一致性的数据集

SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集，通过重新描述600万张图像，显著提升文本到图像模型的空间一致性。

332 18 18

来自：计算机视觉版块

蚝油菜花

|

人工智能

|

博文

RealisHuman：AI 生成的人像不真实？后处理框架帮你修复生成图像中畸形人体部位

RealisHuman 是一个创新的后处理框架，专注于修复生成图像中畸形的人体部位，如手和脸，通过两阶段方法提升图像的真实性。

804 11 11

来自：计算机视觉版块

CodeFuse

|

缓存算法物联网

|

博文

本文整理了 OSDI 2024 和 SOSP 2024 中与大语言模型（LLM）推理优化相关的10篇论文，涵盖 Parrot、ServerlessLLM、dLoRA 等系统，提出的技术如 Chunked Prefill、Prefix-Caching、P/D分离等已被 vLLM 和 TensorRT-LLM 等主流推理引擎采用。这些研究解决了 LLM 推理中的冷启动延迟、资源分配、KV 缓存管理等问题，提升了推理性能和资源利用率。CodeFuse推理优化项目地址https://github.com/codefuse-ai/EasyDeploy

1915 2 2

modelscope

|

物联网异构计算 Python

|

博文

麦橘超然上线魔搭社区，免费生图和训练，文末返图有奖

麦橘超然是麦橘制作的基于Flux.1的模型，可以生成高度摄影写实和富有光影感的图片，尤其擅长表现人物的脸部和肌肤细节。麦橘之前的作品麦橘写实是各大文生图开源站点最受欢迎的模型之一。

1485 11 12

蚝油菜花

|

人工智能运维 Prometheus

|

博文

AIOpsLab：云服务自动化运维 AI，微软开源云服务 AI 框架，覆盖整个生命周期

AIOpsLab 是微软等机构推出的开源框架，支持云服务自动化运维，涵盖故障检测、根本原因分析等完整生命周期。

839 13 13

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能测试技术

|

博文

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

PsycoLLM 是合肥工业大学推出的中文心理大语言模型，基于高质量心理数据集训练，支持心理健康评估、多轮对话和情绪识别，为心理健康领域提供技术支持。

3958 51 52

来自：自然语言处理版块

蚝油菜花

|

人工智能前端开发 API

|

博文

Gemini Coder：基于 Google Gemini API 的开源 Web 应用生成工具，支持实时编辑和预览

Gemini Coder 是一款基于 Google Gemini API 的 AI 应用生成工具，支持通过文本描述快速生成代码，并提供实时代码编辑和预览功能，简化开发流程。

1252 38 38

来自：自然语言处理版块

蚝油菜花

|

人工智能搜索推荐前端开发

|

博文

MiniPerplx：基于 Grok 2.0 的开源 AI 搜索引擎，支持网页、学术、视频搜索

MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎，支持网页、学术论文、YouTube 视频等多种内容搜索，提供代码解释、天气预报等功能。

660 17 18

来自：多模态版块

蚝油菜花

|

人工智能搜索推荐定位技术

|

博文

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型，通过图像-文本对齐和地理匹配技术，实现街道级精度的定位，适用于城市管理、社交媒体、旅游导航等场景。

2427 30 30

来自：计算机视觉版块

蚝油菜花

|

人工智能

|

博文

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术，通过大规模数据集和孪生多模态扩散变换器，实现高质量图像生成与布局优化。

469 20 20

来自：计算机视觉版块

蚝油菜花

|

人工智能自动驾驶安全

|

博文

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

Cosmos 是英伟达推出的生成式世界基础模型平台，旨在加速物理人工智能系统的发展，特别是在自动驾驶和机器人领域。

1300 15 16

来自：多模态版块

蚝油菜花

|

人工智能知识图谱 Docker

|

博文

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

KAG 是蚂蚁集团推出的专业领域知识服务框架，通过知识增强提升大型语言模型在特定领域的问答性能，支持逻辑推理和多跳事实问答，显著提升推理和问答的准确性和效率。

4247 46 46

来自：自然语言处理版块

modelscope

|

自然语言处理前端开发开发者

|

博文

使用 modelscope-studio 构建你的 Gradio 应用

modelscope-studio是一个基于 Gradio 的三方组件库，它可以为开发者提供更定制化的界面搭建能力和更丰富的组件使用形式。

1147 26 26

最新

文章

视频

问答

推荐

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

Valley2，基于电商场景的多模态大模型

Riona-AI-Agent：自媒体 AI 代理！自动点赞、评论、个性化内容生成和发布等交互任务

MiniRAG：迷你 RAG 系统加成小型语言模型，爆发出与大型语言模型相当的性能

NVIDIA-Ingest：英伟达开源智能文档提取及结构化工具，支持 GPU 加速和并行处理

Eko：一句话就能快速构建复杂工作流的 AI 代理开发框架！快速实现自动操作电脑和浏览器完成任务

Emotion-LLaMA：用 AI 读懂、听懂、看懂情绪，精准捕捉文本、音频和视频中的复杂情绪

TimesFM 2.0：用 AI 预测流量、销量和金融市场等走势！谷歌开源超越统计方法的预测模型

ViTPose：最小只有100M的身体姿态估计模型，精确识别人体关节、手、脚等关键点

muAgent v2.2版本发布，支持ekg-sdk使用

微软phi-4来啦！小模型之光，14B科学、代码等能力超70B模型效果！

Agent Laboratory：AI自动撰写论文，AMD开源自动完成科研全流程的多智能体框架

SVFR：全能视频人脸修复框架，支持提升清晰度、色彩填充和缺失补全等图像修复任务

通义千问Qwen征文活动获奖公布

GLM-Zero：智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型，开放在线免费使用和API调用

DeepSeek Artifacts：在线实时预览的前端 AI 编程工具，基于DeepSeek V3快速生成React App

Search-o1：人大清华联合推出动态检索推理框架，使模型能够在推理过程中动态检索外部知识

SPAR3D：一张图片就能生成3D模型，每个物体的重建时间仅需0.7秒！

操作系统智能助手OS Copilot新功能测评

共学 | 2025年，更加有效地搭建Agent

MultiBooth：清华联合 Meta 推出多对象的图像生成框架，生成包含多个指定对象的图像

Ingredients：无需额外训练的多ID视频生成框架，通过多张人物照片生成定制视频

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

TransPixar：港中文联合 Adobe 开源透明背景视频生成模型，生成透明背景的 RGBA 视频，助力特效等视觉效果制作

Aria-UI：港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型，整合动作历史信息实现更加准确的定位

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

CHRONOS：阿里通义联合上海交大推出时间线摘要生成框架，适用于大规模新闻数据的时间线生成任务

与阿里合作项目荣获2024年度教育部产学合作协同育人项目优秀案例

开源了一个项目，小🔥了一把

DashInfer-VLM，多模态SOTA推理性能，超vLLM！

VideoRAG：长视频理解的检索增强生成技术，支持多模态信息提取，能与任何 LVLM 兼容

Edicho：多图像一致性编辑，支持即插即用无需训练，快速实现风格转换

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

JoyCaption：开源的图像转提示词生成工具，支持多种风格和场景，性能与 GPT4o 相当

SeedVR：高效视频修复模型，支持任意长度和分辨率，生成真实感细节

Casevo：开源的社会传播模拟系统，基于 AI 模拟人类认知、决策和社会交互，预测社会传播现象

SPRIGHT：提升文本到图像模型空间一致性的数据集

RealisHuman：AI 生成的人像不真实？后处理框架帮你修复生成图像中畸形人体部位

【论文专辑】2024年大模型推理优化论文精选第六期

麦橘超然上线魔搭社区，免费生图和训练，文末返图有奖

AIOpsLab：云服务自动化运维 AI，微软开源云服务 AI 框架，覆盖整个生命周期

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

Gemini Coder：基于 Google Gemini API 的开源 Web 应用生成工具，支持实时编辑和预览

MiniPerplx：基于 Grok 2.0 的开源 AI 搜索引擎，支持网页、学术、视频搜索

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

使用 modelscope-studio 构建你的 Gradio 应用

ModelScope模型即服务

活跃用户

相关产品