ModelScope模型即服务-文章-第34页-阿里云开发者社区

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

VMB（Visuals Music Bridge）是由中科院联合多所高校机构推出的多模态音乐生成框架，能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

674 7 7

来自：多模态版块

蚝油菜花

|

机器学习/深度学习编解码人工智能

|

博文

ColorFlow：腾讯和清华大学联合推出的图像序列着色模型，通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

ColorFlow是由清华大学和腾讯ARC实验室共同推出的图像序列着色模型，通过检索增强、上下文学习和超分辨率技术，确保黑白图像序列的着色与参考图像颜色一致，适用于漫画、动画制作等工业应用。

1598 15 15

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Manga Image Translator 是一款开源的漫画图片文字翻译工具，支持多语言翻译并能将翻译后的文本无缝嵌入原图，保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型，提供批量处理和在线/离线翻译功能。

2956 17 17

来自：计算机视觉版块

modelscope

|

人工智能 API 开发工具

|

博文

ModelScope魔搭12月版本发布月报

为了给开发者提供更便捷的开源模型API访问方式，我们正式启动了 ModelScope API-Inference 的公测。在开源工具链方面，我们进行了ModelScope 1.21.0的新版本发布，提供了llamafile的集成以及模型加载/下载链路的优化，SWIFT 3.0大版本也已经合并主干，在这个基础上新模型的支持会更加顺畅与便利。

602 3 3

蚝油菜花

|

人工智能算法物联网

|

博文

Lyra：SmartMore 联合香港多所高校推出的多模态大型语言模型，专注于提升语音、视觉和语言模态的交互能力

Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型，专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块，减少训练成本和数据需求，支持多种模态理解和推理任务。

500 33 34

来自：多模态版块

蚝油菜花

|

人工智能数据处理语音技术

|

博文

LatentLM：微软联合清华大学推出的多模态生成模型，能够统一处理和生成图像、文本、音频和语音合成

LatentLM是由微软研究院和清华大学联合推出的多模态生成模型，能够统一处理离散和连续数据，具备高性能图像生成、多模态大型语言模型集成等功能，展现出卓越的多模态任务处理能力。

444 29 29

来自：多模态版块

蚝油菜花

|

编解码人工智能自然语言处理

|

博文

Ruyi：图森未来推出的图生视频大模型，支持多分辨率、多时长视频生成，具备运动幅度和镜头控制等功能

Ruyi是图森未来推出的图生视频大模型，专为消费级显卡设计，支持多分辨率、多时长视频生成，具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构，能够降低动漫和游戏内容的开发周期和成本，是ACG爱好者和创作者的理想工具。

873 33 33

来自：计算机视觉版块

蚝油菜花

|

人工智能自然语言处理 PyTorch

|

博文

BrushEdit：腾讯和北京大学联合推出的图像编辑框架，通过自然语言指令实现对图像的编辑和修复

BrushEdit是由腾讯、北京大学等机构联合推出的先进图像编辑框架，结合多模态大型语言模型和双分支图像修复模型，支持基于指令引导的图像编辑和修复。

304 12 12

来自：计算机视觉版块

蚝油菜花

|

传感器人工智能自然语言处理

|

博文

RDT：清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集，基于模仿能力机器人能够自主完成复杂任务

RDT（Robotics Diffusion Transformer）是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量，能够在无需人类操控的情况下自主完成复杂任务，如调酒和遛狗。

826 22 22

来自：多模态版块

蚝油菜花

|

人工智能监控自动驾驶

|

博文

Apollo：Meta 联合斯坦福大学推出专注于视频理解的多模态模型，能够理解长达数小时的视频

Apollo是由Meta和斯坦福大学合作推出的大型多模态模型，专注于视频理解。该模型通过“Scaling Consistency”现象，在较小模型上的设计决策能够有效扩展至大型模型，显著提升了视频理解能力。

394 24 24

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能

|

博文

Leffa：Meta AI 开源精确控制人物外观和姿势的图像生成框架，在生成穿着的同时保持人物特征

Leffa 是 Meta 开源的图像生成框架，通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本，适用于多种扩散模型，展现了良好的模型无关性和泛化能力。

804 11 11

来自：计算机视觉版块

modelscope

|

自然语言处理语音技术开发工具

|

博文

CosyVoice再升级，可扩展流式语音合成

通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型：语言模型 (LM) 和流匹配进行渐进式语义解码，CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。

2512 2 3

蚝油菜花

|

人工智能数据挖掘大数据

|

博文

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型，能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记，并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集，支持零样本音色控制和多种应用场景。

513 16 16

来自：语音版块

蚝油菜花

|

编解码人工智能

|

博文

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

FreeScale是一个无需微调的推理框架，旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息，首次实现了8K分辨率图像的生成，显著提高了生成内容的质量和保真度，同时减少了推理时间。

381 20 20

来自：计算机视觉版块

蚝油菜花

|

人工智能自然语言处理人机交互

|

博文

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版，通过有限标量量化技术和块感知因果流匹配模型，显著提升了发音准确性、音色一致性和音质，支持多语言和流式推理，适合实时语音合成场景。

8701 22 26

来自：语音版块

蚝油菜花

|

机器学习/深度学习人工智能文字识别

|

博文

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

k1视觉思考模型是kimi推出的k1系列强化学习AI模型，具备端到端图像理解和思维链技术，能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。

1227 68 69

来自：自然语言处理版块

modelscope

|

人工智能自然语言处理安全

|

博文

魔搭社区每周速递（12.08-12.14）

魔搭ModelScope本期社区进展：新增1599个模型，46个数据集，67个创新应用，8篇内容

541 7 7

modelscope

|

人工智能自然语言处理物联网

|

博文

AI Safeguard联合 CMU，斯坦福提出端侧多模态小模型

随着人工智能的快速发展，多模态大模型（MLLMs）在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。

308 0 0

modelscope

|

人工智能安全算法

|

博文

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

掌握多智能体系统，🐫 CAMEL-AI Workshop & 黑客马拉松即将启航！

414 4 4

蚝油菜花

|

机器学习/深度学习人工智能文字识别

|

博文

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

POINTS 1.5是腾讯微信推出的多模态大模型，基于LLaVA架构，具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色，是全球10B以下开源模型中的佼佼者。

780 58 58

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能算法

|

博文

Meta Motivo：Meta 推出能够控制数字智能体动作的 AI 模型，提升元宇宙互动体验的真实性

Meta Motivo 是 Meta 公司推出的 AI 模型，旨在控制数字智能体的全身动作，提升元宇宙体验的真实性。该模型通过无监督强化学习算法，能够实现零样本学习、行为模仿与生成、多任务泛化等功能，适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。

400 4 4

来自：计算机视觉版块

蚝油菜花

|

人工智能物联网 C语言

|

博文

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术，通过将模型的权重和激活值量化至4位，显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值，支持多种架构，并能无缝集成低秩适配器（LoRAs），为资源受限设备上的大型扩散模型部署提供了有效的解决方案。

891 5 5

来自：计算机视觉版块

蚝油菜花

|

开发框架人工智能安全

|

博文

Promptic：轻量级 LLM 应用开发框架，提供完善的底层功能，使开发者更专注于构建上层功能

Promptic 是一个轻量级的 LLM 应用开发框架，支持通过一行代码切换不同的 LLM 服务提供商。它提供了类型安全的输出、流式支持、内置对话记忆、错误处理和重试等功能，帮助开发者专注于构建功能，而不是底层的复杂性。

315 6 6

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理前端开发

|

博文

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

CodeArena 是一个在线平台，用于测试和比较不同大型语言模型（LLM）的编程能力。通过实时显示多个 LLM 的代码生成过程和结果，帮助开发者选择适合的 LLM，并推动 LLM 技术的发展。

995 7 7

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理并行计算

|

博文

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

Maya 是一个开源的多语言多模态模型，能够处理和理解八种不同语言，包括中文、法语、西班牙语、俄语、印地语、日语、阿拉伯语和英语。该模型基于LLaVA框架，通过指令微调和多语言数据集的预训练，提升了在视觉-语言任务中的表现，特别适用于低资源语言的内容生成和跨文化理解。

540 16 17

来自：多模态版块

蚝油菜花

|

人工智能

|

博文

SynCamMaster：快手联合浙大、清华等大学推出的多视角视频生成模型

SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型，能够结合6自由度相机姿势，从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型，确保不同视点的内容一致性，支持多摄像机视频生成，并在多个应用场景中展现出巨大潜力。

310 4 4

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架，能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型（MLLM），支持多角色控制和精确布局控制，适用于漫画创作、个性化内容生成等多个领域。

1046 19 20

来自：多模态版块

蚝油菜花

|

存储人工智能自然语言处理

|

博文

ChatMCP：基于 MCP 协议开发的 AI 聊天客户端，支持多语言和自动化安装 MCP 服务器

ChatMCP 是一款基于模型上下文协议（MCP）的 AI 聊天客户端，支持多语言和自动化安装。它能够与多种大型语言模型（LLM）如 OpenAI、Claude 和 OLLama 等进行交互，具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。

2791 16 18

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理 API

|

博文

Multimodal Live API：谷歌推出新的 AI 接口，支持多模态交互和低延迟实时互动

谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口，能够处理文本、音频和视频输入，提供自然流畅的对话体验，适用于多种应用场景。

527 3 3

来自：自然语言处理版块

蚝油菜花

|

人工智能算法测试技术

|

博文

Insight-V：腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型，旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程，Insight-V在多个视觉推理基准测试中表现出色，展现出强大的视觉推理能力。

327 42 42

来自：多模态版块

1597908693057782

|

机器学习/深度学习自然语言处理数据安全/隐私保护

|

博文

探索Qwen2.5大模型在车险理赔领域的应用

本文探讨了Qwen2.5大模型在车险理赔领域的应用，特别是通过微调模型来优化理赔流程、提高反欺诈能力。文章介绍了车险理赔的数据特点和业务流程，展示了如何准备数据、微调模型，并进行了模型评估和部署的示例。通过这些方法，Qwen2.5能够显著提升理赔效率和准确性，减少人工干预。

1256 1 2

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Gemini 2.0：谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型，以Agent技术为核心，支持多种数据类型的输入与输出，具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

1347 20 20

来自：多模态版块

蚝油菜花

|

人工智能自然语言处理语音技术

|

博文

Ultravox：端到端多模态大模型，能直接理解文本和语音内容，无需依赖语音识别

Ultravox是一款端到端的多模态大模型，能够直接理解文本和人类语音，无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示，显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能，适用于智能客服、虚拟助手、语言学习等多个应用场景。

882 14 14

来自：多模态版块

蚝油菜花

|

数据采集人工智能编解码

|

博文

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准（MMMU）上表现优异，超越了许多商业模型，适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。

1413 7 7

来自：多模态版块

蚝油菜花

|

人工智能物联网 PyTorch

|

博文

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

ChatTTSPlus 是一个开源的文本转语音工具，是 ChatTTS 的扩展版本，支持语音克隆、TensorRT 加速和移动模型部署等功能，极大地提升了语音合成的性能和灵活性。

1103 5 5

来自：语音版块

蚝油菜花

|

数据采集人工智能自然语言处理

|

博文

FineWeb 2：开源的多语言预训练数据集，覆盖超过 1000 种语言

FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集，覆盖超过 1000 种语言，支持多种 NLP 任务，如机器翻译和文本分类。该数据集通过定制化的数据处理流程，包括语言识别、去重、内容过滤和 PII 匿名化，提升了多语言模型的性能和泛化能力。

910 5 5

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

MMAudio：开源 AI 音频合成项目，根据视频或文本生成同步的音频

MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目，能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景，提升用户体验。

886 8 8

来自：多模态版块

modelscope

|

机器学习/深度学习数据采集人工智能

|

博文

TeleAI 星辰语义大模型全尺寸开源，function call能力突出

星辰语义大模型TeleChat2是由中国电信人工智能研究院（TeleAI）研发训练的大语言模型。今年9月，TeleAI 正式发布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 TeleChat2-115B ，近日又进一步开源了 TeleChat2-3B、7B和35B，以适配不同场景的应用需求。

836 9 9

modelscope

|

机器学习/深度学习数据采集人工智能

|

博文

基于可图Kolors的皮影戏风格LoRA训练&创作

可图Kolors-LoRA风格故事挑战赛比赛过程心得分享

571 8 8

modelscope

|

开发框架自然语言处理 JavaScript

|

博文

千问开源P-MMEval数据集，面向大模型的多语言平行评测集

近期，通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval，涵盖了高效的基础和专项能力数据集。

1602 8 10

CodeFuse

|

缓存人工智能程序员

|

博文

CodeFuse「编码挑战季」：冲刺最后1个月！MelGeek磁轴键盘、Beats耳机等你来拿~

从1024程序员节起至12月底，CodeFuse「编码挑战季」火热进行中！参与muAgent、MFTCoder、ModelCache、CodeFuse-IDE四个项目的编码挑战，不仅能够深化对CodeFuse项目及开源社区的理解，还能赢取定制周边及高端奖品，如MelGeekMADE68 PRO磁轴键盘、Beats Studio Pro无线蓝牙耳机等。活动期间，开发者可根据任务难度获取积分，兑换丰富奖品。立即加入，让我们一起探索技术的无限可能！

234 11 11

蚝油菜花

|

人工智能自然语言处理前端开发

|

博文

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架，用户可以通过自然语言命令执行复杂的视频任务，如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施，集成了多个预构建的视频代理和 AI API，支持高度定制化，适用于开发者和创作者。

824 9 10

来自：计算机视觉版块

蚝油菜花

|

人工智能安全 PyTorch

|

博文

SPDL：Meta AI 推出的开源高性能AI模型数据加载解决方案，兼容主流 AI 框架 PyTorch

SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案，基于多线程技术和异步事件循环，提供高吞吐量、低资源占用的数据加载功能，支持分布式系统和主流AI框架PyTorch。

699 10 10

来自：科学计算版块

蚝油菜花

|

人工智能安全测试技术

|

博文

EXAONE 3.5：LG 推出的开源 AI 模型，采用 RAG 和多步推理能力降低模型的幻觉问题

EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型，擅长长文本处理，能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本，支持多步推理和检索增强生成技术，适用于多种应用场景。

363 9 9

来自：自然语言处理版块

蚝油菜花

|

人工智能自动驾驶决策智能

|

博文

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集，包含18,000个视频片段，涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础，并定义了动作指令跟随（AIF）基准，用于评估世界模型在执行动作控制的未来预测能力。

320 6 6

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能搜索推荐

|

博文

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

DeepSeek-V2.5-1210 是 DeepSeek V2.5 系列的最终版微调模型，支持联网搜索功能，具备在数学、编程、写作和角色扮演等领域的能力提升。本文将详细介绍该模型的功能、技术原理及应用场景。

10497 19 20

来自：自然语言处理版块

蚝油菜花

|

编解码人工智能监控

|

博文

VISION XL：支持四倍超分辨率的 AI 视频修复处理工具，提供去除模糊、修复缺失等功能

VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具，能够修复视频缺失部分、去除模糊，并支持四倍超分辨率。该工具优化了处理效率，适合快速处理视频的应用场景。

2954 6 7

来自：计算机视觉版块

蚝油菜花

|

人工智能搜索推荐开发者

|

博文

ClotheDreamer：上海大学联合腾讯等高校推出的3D服装生成技术

ClotheDreamer是由上海大学、上海交通大学、复旦大学和腾讯优图实验室联合推出的3D服装生成技术，能够根据文本描述生成高保真、可穿戴的3D服装资产，适用于虚拟试穿和物理精确动画。

297 6 6

来自：计算机视觉版块

modelscope

|

机器学习/深度学习人工智能物联网

|

博文

AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营

12月05日，由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。

567 4 4

modelscope

|

机器学习/深度学习自然语言处理安全

|

博文

Llama 3.3开源！70B媲美405B性能，支持128K上下文

近期，Meta开源了Llama 3.3 多语言大型语言模型（LLM），Llama 3.3 是一个预训练并经过指令调优的生成模型，参数量为70B（文本输入/文本输出）。

2606 5 5

最新

文章

视频

问答

推荐

VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

ColorFlow：腾讯和清华大学联合推出的图像序列着色模型，通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

ModelScope魔搭12月版本发布月报

Lyra：SmartMore 联合香港多所高校推出的多模态大型语言模型，专注于提升语音、视觉和语言模态的交互能力

LatentLM：微软联合清华大学推出的多模态生成模型，能够统一处理和生成图像、文本、音频和语音合成

Ruyi：图森未来推出的图生视频大模型，支持多分辨率、多时长视频生成，具备运动幅度和镜头控制等功能

BrushEdit：腾讯和北京大学联合推出的图像编辑框架，通过自然语言指令实现对图像的编辑和修复

RDT：清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集，基于模仿能力机器人能够自主完成复杂任务

Apollo：Meta 联合斯坦福大学推出专注于视频理解的多模态模型，能够理解长达数小时的视频

Leffa：Meta AI 开源精确控制人物外观和姿势的图像生成框架，在生成穿着的同时保持人物特征

CosyVoice再升级，可扩展流式语音合成

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

魔搭社区每周速递（12.08-12.14）

AI Safeguard联合 CMU，斯坦福提出端侧多模态小模型

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

Meta Motivo：Meta 推出能够控制数字智能体动作的 AI 模型，提升元宇宙互动体验的真实性

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

Promptic：轻量级 LLM 应用开发框架，提供完善的底层功能，使开发者更专注于构建上层功能

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

SynCamMaster：快手联合浙大、清华等大学推出的多视角视频生成模型

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

ChatMCP：基于 MCP 协议开发的 AI 聊天客户端，支持多语言和自动化安装 MCP 服务器

Multimodal Live API：谷歌推出新的 AI 接口，支持多模态交互和低延迟实时互动

Insight-V：腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

探索Qwen2.5大模型在车险理赔领域的应用

Gemini 2.0：谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

Ultravox：端到端多模态大模型，能直接理解文本和语音内容，无需依赖语音识别

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

FineWeb 2：开源的多语言预训练数据集，覆盖超过 1000 种语言

MMAudio：开源 AI 音频合成项目，根据视频或文本生成同步的音频

TeleAI 星辰语义大模型全尺寸开源，function call能力突出

基于可图Kolors的皮影戏风格LoRA训练&创作

千问开源P-MMEval数据集，面向大模型的多语言平行评测集

CodeFuse「编码挑战季」：冲刺最后1个月！MelGeek磁轴键盘、Beats耳机等你来拿~

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

SPDL：Meta AI 推出的开源高性能AI模型数据加载解决方案，兼容主流 AI 框架 PyTorch

EXAONE 3.5：LG 推出的开源 AI 模型，采用 RAG 和多步推理能力降低模型的幻觉问题

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

VISION XL：支持四倍超分辨率的 AI 视频修复处理工具，提供去除模糊、修复缺失等功能

ClotheDreamer：上海大学联合腾讯等高校推出的3D服装生成技术

AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营

Llama 3.3开源！70B媲美405B性能，支持128K上下文

ModelScope模型即服务

活跃用户

相关产品