ModelScope模型即服务-文章-第36页-阿里云开发者社区

modelscope

|

自然语言处理语音技术开发工具

|

博文

CosyVoice再升级，可扩展流式语音合成

通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型：语言模型 (LM) 和流匹配进行渐进式语义解码，CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。

2879 2 3

蚝油菜花

|

人工智能数据挖掘大数据

|

博文

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型，能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记，并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集，支持零样本音色控制和多种应用场景。

735 16 16

来自：语音版块

蚝油菜花

|

编解码人工智能

|

博文

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

FreeScale是一个无需微调的推理框架，旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息，首次实现了8K分辨率图像的生成，显著提高了生成内容的质量和保真度，同时减少了推理时间。

492 20 20

来自：计算机视觉版块

蚝油菜花

|

人工智能自然语言处理人机交互

|

博文

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版，通过有限标量量化技术和块感知因果流匹配模型，显著提升了发音准确性、音色一致性和音质，支持多语言和流式推理，适合实时语音合成场景。

9862 22 26

来自：语音版块

蚝油菜花

|

机器学习/深度学习人工智能文字识别

|

博文

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

k1视觉思考模型是kimi推出的k1系列强化学习AI模型，具备端到端图像理解和思维链技术，能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。

1381 68 69

来自：自然语言处理版块

modelscope

|

人工智能自然语言处理安全

|

博文

魔搭社区每周速递（12.08-12.14）

魔搭ModelScope本期社区进展：新增1599个模型，46个数据集，67个创新应用，8篇内容

698 7 7

modelscope

|

人工智能自然语言处理物联网

|

博文

AI Safeguard联合 CMU，斯坦福提出端侧多模态小模型

随着人工智能的快速发展，多模态大模型（MLLMs）在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。

408 0 0

modelscope

|

人工智能安全算法

|

博文

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

掌握多智能体系统，🐫 CAMEL-AI Workshop & 黑客马拉松即将启航！

484 4 4

蚝油菜花

|

机器学习/深度学习人工智能文字识别

|

博文

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

POINTS 1.5是腾讯微信推出的多模态大模型，基于LLaVA架构，具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色，是全球10B以下开源模型中的佼佼者。

956 58 58

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能算法

|

博文

Meta Motivo：Meta 推出能够控制数字智能体动作的 AI 模型，提升元宇宙互动体验的真实性

Meta Motivo 是 Meta 公司推出的 AI 模型，旨在控制数字智能体的全身动作，提升元宇宙体验的真实性。该模型通过无监督强化学习算法，能够实现零样本学习、行为模仿与生成、多任务泛化等功能，适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。

496 4 4

来自：计算机视觉版块

蚝油菜花

|

人工智能物联网 C语言

|

博文

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术，通过将模型的权重和激活值量化至4位，显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值，支持多种架构，并能无缝集成低秩适配器（LoRAs），为资源受限设备上的大型扩散模型部署提供了有效的解决方案。

1068 5 5

来自：计算机视觉版块

蚝油菜花

|

开发框架人工智能安全

|

博文

Promptic：轻量级 LLM 应用开发框架，提供完善的底层功能，使开发者更专注于构建上层功能

Promptic 是一个轻量级的 LLM 应用开发框架，支持通过一行代码切换不同的 LLM 服务提供商。它提供了类型安全的输出、流式支持、内置对话记忆、错误处理和重试等功能，帮助开发者专注于构建功能，而不是底层的复杂性。

390 6 6

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理前端开发

|

博文

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

CodeArena 是一个在线平台，用于测试和比较不同大型语言模型（LLM）的编程能力。通过实时显示多个 LLM 的代码生成过程和结果，帮助开发者选择适合的 LLM，并推动 LLM 技术的发展。

1901 7 7

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理并行计算

|

博文

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

Maya 是一个开源的多语言多模态模型，能够处理和理解八种不同语言，包括中文、法语、西班牙语、俄语、印地语、日语、阿拉伯语和英语。该模型基于LLaVA框架，通过指令微调和多语言数据集的预训练，提升了在视觉-语言任务中的表现，特别适用于低资源语言的内容生成和跨文化理解。

648 16 17

来自：多模态版块

蚝油菜花

|

人工智能

|

博文

SynCamMaster：快手联合浙大、清华等大学推出的多视角视频生成模型

SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型，能够结合6自由度相机姿势，从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型，确保不同视点的内容一致性，支持多摄像机视频生成，并在多个应用场景中展现出巨大潜力。

445 4 4

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架，能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型（MLLM），支持多角色控制和精确布局控制，适用于漫画创作、个性化内容生成等多个领域。

1223 19 20

来自：多模态版块

蚝油菜花

|

存储人工智能自然语言处理

|

博文

ChatMCP：基于 MCP 协议开发的 AI 聊天客户端，支持多语言和自动化安装 MCP 服务器

ChatMCP 是一款基于模型上下文协议（MCP）的 AI 聊天客户端，支持多语言和自动化安装。它能够与多种大型语言模型（LLM）如 OpenAI、Claude 和 OLLama 等进行交互，具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。

2965 16 18

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理 API

|

博文

Multimodal Live API：谷歌推出新的 AI 接口，支持多模态交互和低延迟实时互动

谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口，能够处理文本、音频和视频输入，提供自然流畅的对话体验，适用于多种应用场景。

645 3 3

来自：自然语言处理版块

蚝油菜花

|

人工智能算法测试技术

|

博文

Insight-V：腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型，旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程，Insight-V在多个视觉推理基准测试中表现出色，展现出强大的视觉推理能力。

389 42 42

来自：多模态版块

1597908693057782

|

机器学习/深度学习自然语言处理数据安全/隐私保护

|

博文

探索Qwen2.5大模型在车险理赔领域的应用

本文探讨了Qwen2.5大模型在车险理赔领域的应用，特别是通过微调模型来优化理赔流程、提高反欺诈能力。文章介绍了车险理赔的数据特点和业务流程，展示了如何准备数据、微调模型，并进行了模型评估和部署的示例。通过这些方法，Qwen2.5能够显著提升理赔效率和准确性，减少人工干预。

1421 1 2

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Gemini 2.0：谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型，以Agent技术为核心，支持多种数据类型的输入与输出，具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

1531 20 20

来自：多模态版块

蚝油菜花

|

人工智能自然语言处理语音技术

|

博文

Ultravox：端到端多模态大模型，能直接理解文本和语音内容，无需依赖语音识别

Ultravox是一款端到端的多模态大模型，能够直接理解文本和人类语音，无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示，显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能，适用于智能客服、虚拟助手、语言学习等多个应用场景。

988 14 14

来自：多模态版块

蚝油菜花

|

数据采集人工智能编解码

|

博文

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准（MMMU）上表现优异，超越了许多商业模型，适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。

1702 7 7

来自：多模态版块

蚝油菜花

|

人工智能物联网 PyTorch

|

博文

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

ChatTTSPlus 是一个开源的文本转语音工具，是 ChatTTS 的扩展版本，支持语音克隆、TensorRT 加速和移动模型部署等功能，极大地提升了语音合成的性能和灵活性。

1352 5 5

来自：语音版块

蚝油菜花

|

数据采集人工智能自然语言处理

|

博文

FineWeb 2：开源的多语言预训练数据集，覆盖超过 1000 种语言

FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集，覆盖超过 1000 种语言，支持多种 NLP 任务，如机器翻译和文本分类。该数据集通过定制化的数据处理流程，包括语言识别、去重、内容过滤和 PII 匿名化，提升了多语言模型的性能和泛化能力。

1111 5 5

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

MMAudio：开源 AI 音频合成项目，根据视频或文本生成同步的音频

MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目，能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景，提升用户体验。

1043 8 8

来自：多模态版块

modelscope

|

机器学习/深度学习数据采集人工智能

|

博文

TeleAI 星辰语义大模型全尺寸开源，function call能力突出

星辰语义大模型TeleChat2是由中国电信人工智能研究院（TeleAI）研发训练的大语言模型。今年9月，TeleAI 正式发布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 TeleChat2-115B ，近日又进一步开源了 TeleChat2-3B、7B和35B，以适配不同场景的应用需求。

1085 9 9

modelscope

|

机器学习/深度学习数据采集人工智能

|

博文

基于可图Kolors的皮影戏风格LoRA训练&创作

可图Kolors-LoRA风格故事挑战赛比赛过程心得分享

725 8 8

modelscope

|

开发框架自然语言处理 JavaScript

|

博文

千问开源P-MMEval数据集，面向大模型的多语言平行评测集

近期，通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval，涵盖了高效的基础和专项能力数据集。

2366 8 10

CodeFuse

|

缓存人工智能程序员

|

博文

CodeFuse「编码挑战季」：冲刺最后1个月！MelGeek磁轴键盘、Beats耳机等你来拿~

从1024程序员节起至12月底，CodeFuse「编码挑战季」火热进行中！参与muAgent、MFTCoder、ModelCache、CodeFuse-IDE四个项目的编码挑战，不仅能够深化对CodeFuse项目及开源社区的理解，还能赢取定制周边及高端奖品，如MelGeekMADE68 PRO磁轴键盘、Beats Studio Pro无线蓝牙耳机等。活动期间，开发者可根据任务难度获取积分，兑换丰富奖品。立即加入，让我们一起探索技术的无限可能！

320 11 11

蚝油菜花

|

人工智能自然语言处理前端开发

|

博文

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架，用户可以通过自然语言命令执行复杂的视频任务，如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施，集成了多个预构建的视频代理和 AI API，支持高度定制化，适用于开发者和创作者。

1191 9 10

来自：计算机视觉版块

蚝油菜花

|

人工智能安全 PyTorch

|

博文

SPDL：Meta AI 推出的开源高性能AI模型数据加载解决方案，兼容主流 AI 框架 PyTorch

SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案，基于多线程技术和异步事件循环，提供高吞吐量、低资源占用的数据加载功能，支持分布式系统和主流AI框架PyTorch。

954 10 10

来自：科学计算版块

蚝油菜花

|

人工智能安全测试技术

|

博文

EXAONE 3.5：LG 推出的开源 AI 模型，采用 RAG 和多步推理能力降低模型的幻觉问题

EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型，擅长长文本处理，能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本，支持多步推理和检索增强生成技术，适用于多种应用场景。

433 9 9

来自：自然语言处理版块

蚝油菜花

|

人工智能自动驾驶决策智能

|

博文

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集，包含18,000个视频片段，涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础，并定义了动作指令跟随（AIF）基准，用于评估世界模型在执行动作控制的未来预测能力。

446 6 6

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能搜索推荐

|

博文

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

DeepSeek-V2.5-1210 是 DeepSeek V2.5 系列的最终版微调模型，支持联网搜索功能，具备在数学、编程、写作和角色扮演等领域的能力提升。本文将详细介绍该模型的功能、技术原理及应用场景。

10659 19 20

来自：自然语言处理版块

蚝油菜花

|

编解码人工智能监控

|

博文

VISION XL：支持四倍超分辨率的 AI 视频修复处理工具，提供去除模糊、修复缺失等功能

VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具，能够修复视频缺失部分、去除模糊，并支持四倍超分辨率。该工具优化了处理效率，适合快速处理视频的应用场景。

3114 6 7

来自：计算机视觉版块

蚝油菜花

|

人工智能搜索推荐开发者

|

博文

ClotheDreamer：上海大学联合腾讯等高校推出的3D服装生成技术

ClotheDreamer是由上海大学、上海交通大学、复旦大学和腾讯优图实验室联合推出的3D服装生成技术，能够根据文本描述生成高保真、可穿戴的3D服装资产，适用于虚拟试穿和物理精确动画。

406 6 6

来自：计算机视觉版块

modelscope

|

机器学习/深度学习人工智能物联网

|

博文

AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营

12月05日，由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。

690 4 4

modelscope

|

机器学习/深度学习自然语言处理安全

|

博文

Llama 3.3开源！70B媲美405B性能，支持128K上下文

近期，Meta开源了Llama 3.3 多语言大型语言模型（LLM），Llama 3.3 是一个预训练并经过指令调优的生成模型，参数量为70B（文本输入/文本输出）。

3073 5 5

蚝油菜花

|

人工智能文字识别测试技术

|

博文

Florence-VL：微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型，结合生成式视觉基础模型Florence-2和深度-广度融合技术，实现视觉与语言理解的深度融合，适用于多种下游任务。

523 29 29

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能 UED

|

博文

OOTDiffusion：开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

OOTDiffusion是一款开源的AI虚拟试衣工具，能够智能适配不同性别和体型，自动调整衣物尺寸和形状，生成自然贴合的试穿效果。该工具支持半身和全身试穿模式，操作简单，适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。

1833 27 28

来自：计算机视觉版块

蚝油菜花

|

人工智能编解码虚拟化

|

博文

See3D：智源研究院开源的无标注视频学习 3D 生成模型

See3D 是智源研究院推出的无标注视频学习 3D 生成模型，能够从大规模无标注的互联网视频中学习 3D 先验，实现从视频中生成 3D 内容。See3D 采用视觉条件技术，支持从文本、单视图和稀疏视图到 3D 的生成，并能进行 3D 编辑与高斯渲染。

753 13 13

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习 Web App开发人工智能

|

博文

Amurex：开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

Amurex是一款开源的AI会议助手，提供实时建议、智能摘要、快速回顾关键信息等功能，帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。

747 18 18

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能测试技术

|

博文

O1-CODER：北交大推出的O1代码版开源项目，专注于编码任务

O1-CODER是由北京交通大学研究团队推出的开源项目，专注于编码任务。该项目结合强化学习和蒙特卡洛树搜索技术，提升模型的System-2思维能力，旨在生成更高效、逻辑性更强的代码。

473 24 24

来自：自然语言处理版块

蚝油菜花

|

人工智能

|

博文

GenMAC：港大、清华联合微软推出文本到视频生成的多代理协作框架

GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作，解决了复杂场景生成问题，显著提高了视频生成的准确性和文本对齐度。

226 5 5

来自：多模态版块

wdzhao

|

机器学习/深度学习算法计算机视觉

|

博文

《深度学习案例实战》新书出版——基于阿里魔搭平台

《深度学习案例实战》是一本实用的指南，涵盖多个领域的深度学习应用案例。本书旨在通过具体的案例讲解，阐述典型深度学习算法在图像分类、声音识别、语义分割、目标检测等各个领域的广泛应用。本书所涵盖的典型案例包括太阳黑子分类、气象预测、食物声音分类、智能厨房、智能冰箱食材检测、集体照人脸识别、遛狗绳识别、智能售药机药品检测、道路裂纹检测、学生教室行为检测等。这些案例旨在通过实际问题的解决，使读者能够深入理解深度学习算法的应用和实践。本书特别关注两个关键技术：低代码开发平台摩搭ModelScope和深度学习加速器OpenVINO。摩搭平台为读者提供了一个便捷的开发环境，借助其丰富的预训练模型库和开发平

636 2 2

Net分享

|

消息中间件存储 JSON

|

博文

Net使用EasyNetQ简化与RabbitMQ的交互

EasyNetQ是专为.NET环境设计的RabbitMQ客户端API，简化了与RabbitMQ的交互过程。通过NuGet安装EasyNetQ，可轻松实现消息的发布与订阅，支持多种消息模式及高级特性。文中提供了详细的安装步骤、代码示例及基础知识介绍，帮助开发者快速上手。关注公众号“Net分享”获取更多技术文章。

527 1 1

蚝油菜花

|

机器学习/深度学习人工智能开发工具

|

博文

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

Clone-voice是一款开源的声音克隆工具，支持16种语言，能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术，界面友好，操作简单，适用于多种应用场景，如视频制作、语言学习和广告配音等。

3268 9 11

来自：语音版块

蚝油菜花

|

人工智能编解码机器人

|

博文

NVILA：英伟达开源视觉语言大模型，高效处理高分辨率图像和长视频

NVILA是英伟达推出的视觉语言大模型，旨在高效处理高分辨率图像和长视频，同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术，在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。

709 13 13

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型，提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术，简化了图像分析流程，提高了开发效率，适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。

7735 14 15

来自：多模态版块

最新

文章

视频

问答

推荐

CosyVoice再升级，可扩展流式语音合成

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

魔搭社区每周速递（12.08-12.14）

AI Safeguard联合 CMU，斯坦福提出端侧多模态小模型

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

Meta Motivo：Meta 推出能够控制数字智能体动作的 AI 模型，提升元宇宙互动体验的真实性

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

Promptic：轻量级 LLM 应用开发框架，提供完善的底层功能，使开发者更专注于构建上层功能

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

SynCamMaster：快手联合浙大、清华等大学推出的多视角视频生成模型

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

ChatMCP：基于 MCP 协议开发的 AI 聊天客户端，支持多语言和自动化安装 MCP 服务器

Multimodal Live API：谷歌推出新的 AI 接口，支持多模态交互和低延迟实时互动

Insight-V：腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

探索Qwen2.5大模型在车险理赔领域的应用

Gemini 2.0：谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

Ultravox：端到端多模态大模型，能直接理解文本和语音内容，无需依赖语音识别

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

FineWeb 2：开源的多语言预训练数据集，覆盖超过 1000 种语言

MMAudio：开源 AI 音频合成项目，根据视频或文本生成同步的音频

TeleAI 星辰语义大模型全尺寸开源，function call能力突出

基于可图Kolors的皮影戏风格LoRA训练&创作

千问开源P-MMEval数据集，面向大模型的多语言平行评测集

CodeFuse「编码挑战季」：冲刺最后1个月！MelGeek磁轴键盘、Beats耳机等你来拿~

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

SPDL：Meta AI 推出的开源高性能AI模型数据加载解决方案，兼容主流 AI 框架 PyTorch

EXAONE 3.5：LG 推出的开源 AI 模型，采用 RAG 和多步推理能力降低模型的幻觉问题

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

VISION XL：支持四倍超分辨率的 AI 视频修复处理工具，提供去除模糊、修复缺失等功能

ClotheDreamer：上海大学联合腾讯等高校推出的3D服装生成技术

AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营

Llama 3.3开源！70B媲美405B性能，支持128K上下文

Florence-VL：微软和马里兰大学共同开源的多模态大语言模型

OOTDiffusion：开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

See3D：智源研究院开源的无标注视频学习 3D 生成模型

Amurex：开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

O1-CODER：北交大推出的O1代码版开源项目，专注于编码任务

GenMAC：港大、清华联合微软推出文本到视频生成的多代理协作框架

《深度学习案例实战》新书出版——基于阿里魔搭平台

Net使用EasyNetQ简化与RabbitMQ的交互

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

NVILA：英伟达开源视觉语言大模型，高效处理高分辨率图像和长视频

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

ModelScope模型即服务

活跃用户

相关产品