文档备案控制台

模型库

数据集

创空间

文档

文章

视频

问答

推荐

蚝油菜花

|

存储人工智能开发框架

|

博文

Kheish：开源的多智能体开发框架，通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Kheish 是一个开源的多智能体协调平台，基于大型语言模型（LLM）设计，能够通过灵活配置多个智能体来解决复杂任务。平台支持模块化集成、聊天式提示、反馈循环等功能，适用于代码审计、法律文件分析、客户服务自动化等多种应用场景。

560 18 18

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理 PyTorch

|

博文

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练，旨在提高大型语言模型的推理效率，特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。

585 12 12

来自：自然语言处理版块

蚝油菜花

|

人工智能异构计算

|

博文

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号，生成密集运动场，并保持对不同体型的泛化能力，显著提升了人物图像动画的质量和一致性。

479 14 14

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能 PyTorch

|

博文

HelloMeme：开源的面部表情与姿态迁移框架，将视频中的人物表情迁移到静态图像中生成动态视频

HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架，通过集成空间编织注意力机制，实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性，适用于多种应用场景。

748 77 77

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习编解码人工智能

|

博文

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型，基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制，能够高效地提升图像分辨率，适用于老旧照片修复、视频监控、医疗成像等多个领域。

3209 9 10

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能编解码

|

博文

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制，通过局部注意力窗口设计，显著提升了预训练扩散变换器生成高分辨率图像的效率，生成8K图像时提速6.3倍。

414 18 18

来自：计算机视觉版块

蚝油菜花

|

数据采集人工智能自动驾驶

|

博文

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集，旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及多种环境，能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

713 16 16

来自：多模态版块

modelscope

|

机器学习/深度学习异构计算 Python

|

博文

HelloMeme:充分利用 SD1.5 基模的理解能力，实现表情与姿态的迁移

利用最新的 Diffusion 生成技术实现表情迁移

643 0 0

蚝油菜花

|

人工智能监控算法

|

博文

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目，结合声学、语义和视觉信息，提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码，以及大规模多设备、多距离、多方言的数据集，适用于多种应用场景。

4528 18 18

来自：语音版块

CodeFuse

|

人工智能运维算法

|

博文

资讯 | CodeFuse邀你12月28日参加OSC源创会年终盛典活动

2024年OSC源创会年终盛典将于12月28日在珠海举行，CodeFuse将在主论坛分享《CodeFuse基座模型介绍》并展示最新项目。欢迎扫码报名！

193 0 0

CodeFuse

|

开发者

|

博文

CodeFuse「编码挑战季」圆满收官！大奖揭晓！

感谢每一位参与者的热情支持！CodeFuse「编码挑战季」圆满结束，活动历时两个月，见证了大家对编码的热情和对技术的执着。我们公布了项目特别贡献奖获奖者，并开启了积分兑换奖品通道。已完成任务的小伙伴可通过私聊【CodeFuse 服务助手】兑换定制礼品。未来，CodeFuse将继续陪伴大家成长，期待下次活动再见！12月28日还有线下见面会，欢迎参加！🌟🎉🎁 （239字符）

202 0 0

蚝油菜花

|

机器学习/深度学习人工智能智能设计

|

博文

VisionFM：通用眼科 AI 大模型，具备眼科疾病诊断能力，展现出专家级别的准确性

VisionFM 是一个多模态多任务的视觉基础模型，专为通用眼科人工智能设计。通过预训练大量眼科图像，模型能够处理多种眼科成像模态，并在多种眼科任务中展现出专家级别的智能性和准确性。

884 4 4

来自：计算机视觉版块

蚝油菜花

|

存储人工智能 API

|

博文

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

AgentScope是阿里巴巴集团开源的多智能体开发平台，旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持，内置多种模型API和本地模型部署选项，支持多模态数据处理。

13298 78 81

来自：多模态版块

蚝油菜花

|

人工智能数据挖掘 vr&ar

|

博文

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术，通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。

474 4 4

来自：计算机视觉版块

modelscope

|

机器学习/深度学习人工智能物联网

|

博文

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

12月14日，由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。

659 58 60

modelscope

|

人工智能自然语言处理小程序

|

博文

魔搭社区每周速递（12.15-12.21）

🙋魔搭ModelScope本期社区进展：📟1914个模型，📁58个数据集，🎨78个创新应用，📄 8篇内容

688 4 4

modelscope

|

存储人工智能编解码

|

博文

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源：能看、能听、会记、会说！

2024年12月12日，多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源，该模型可以通过视觉和听觉实时观察和理解外部世界，自动形成对观察到内容的长期记忆，并可通过语音与人类用户进行对话交谈，提供更自然的大模型交互体验。

1103 4 4

modelscope

|

机器学习/深度学习存储自然语言处理

|

博文

RWKV-7：极先进的大模型架构，长文本能力极强

RWKV-7 是极先进的最新大模型架构，超越 attention / linear attention 范式，拥有强大的 in-context-learning（上下文学习）能力，可真正持续学习，在保持 100% RNN 的同时，拥有极强的长文本能力。

786 2 2

蚝油菜花

|

人工智能自然语言处理

|

博文

RWKV-7：RWKV系列开源最新的大模型架构，具有强大的上下文学习能力，超越传统的Attention范式

RWKV-7是RWKV系列的最新大模型架构版本，具有强大的上下文学习能力，超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。

1216 7 7

来自：自然语言处理版块

蚝油菜花

|

人工智能 Linux API

|

博文

PromptWizard：微软开源 AI 提示词自动化优化框架，能够迭代优化提示指令和上下文示例，提升 LLMs 特定任务的表现

PromptWizard 是微软开源的 AI 提示词自动化优化框架，通过自我演变和自我适应机制，迭代优化提示指令和上下文示例，提升大型语言模型（LLMs）在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。

1316 8 9

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理计算机视觉

|

博文

StyleStudio：支持图像风格迁移的文生图模型，能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型，能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术，解决了风格过拟合、控制限制和文本错位等问题，提升了风格迁移的质量和文本对齐的准确性。

841 8 8

来自：计算机视觉版块

蚝油菜花

|

人工智能前端开发 API

|

博文

OpenAI 12天发布会内容全纪录！一文快速回顾获知亮点信息，原文附发布会中文字幕视频

OpenAI 于12月5日宣布将举行为期12天的系列发布活动，期间每天发布一个产品或样品，包括备受期待的AI视频生成工具Sora和新的推理模型。本文将介绍这12天的发布会每日的发布内容和相关亮点信息。

1173 82 86

来自：自然语言处理版块

蚝油菜花

|

人工智能内存技术

|

博文

Gemini 2.0 Flash Thinking：谷歌推出实验性多模态推理模型，在快速生成的同时展示详细的思考过程

谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking，展示了详细的思考过程，能够在多个领域快速解决问题，并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。

761 26 26

来自：自然语言处理版块

蚝油菜花

|

人工智能

|

博文

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型，能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略，实现了色彩和风格的准确传递，适用于动画制作、游戏开发和数字艺术创作等多个领域。

952 16 16

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Genesis：卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎，能够模拟各种材料、物体和物理运动现象

Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎，能够模拟世界万物，具有高度的物理准确性和快速的模拟速度，适用于机器人仿真、游戏开发、电影特效制作等多个领域。

935 21 21

来自：计算机视觉版块

蚝油菜花

|

人工智能移动开发前端开发

|

博文

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

蚂蚁团队推出的AI前端研发平台WeaveFox，能够根据设计图直接生成前端源代码，支持多种应用类型和技术栈，提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。

7338 68 68

来自：多模态版块

迪今科技

|

监控数据可视化架构师

|

博文

为什么企业需要开展架构治理？

随着数字化转型加速，企业面临的技术和业务环境日益复杂，传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键，通过确保技术与战略对接、优化资源利用、降低风险和复杂性，提升企业灵活性、效率和创新能力，支持快速响应市场变化，推动数字化转型成功。

686 7 7

modelscope

|

人工智能算法决策智能

|

博文

CompassArena上新！JudgeCopilot与新一代Bradley-Terry模型竞技体验

2024 年 5 月，上海人工智能实验室司南 OpenCompass 团队携手魔搭 ModelScope，联合推出了大模型评测平台——CompassArena（大模型竞技场），为大模型领域引入了一种全新的竞技模式。

447 6 6

modelscope

|

自然语言处理测试技术

|

博文

社区供稿 | 引入隐式模型融合技术，中山大学团队推出 FuseChat-3.0

在大语言模型（LLM）领域，结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而，以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。

408 12 12

modelscope

|

人工智能移动开发前端开发

|

博文

温暖接力：“追星星的AI”再出发，志愿者招募令！

孤独症儿童绘本创作工具二期迭代开发，缺人！

597 21 21

智能引擎技术

|

机器学习/深度学习存储自然语言处理

|

博文

如何提升大模型的“深度思维能力”

本文探讨了如何通过模拟人类的思维过程来提升大模型的推理和规划能力。文章从人类的思维模式入手，分析了人类在面对复杂问题时的“增-减”信息循环，提出了通过增加相关信息和减少噪声来降低信息熵的方法。文章还讨论了如何生成逻辑自洽的推理路径，并通过实例说明了多结论问题的处理方法。最后，文章指出，通过现有的大模型进行针对性微调，可以逐步强化数据，提升模型的推理和规划能力。

1233 11 12

蚝油菜花

|

人工智能算法机器人

|

博文

EMMA-X：新加坡科技设计大学推出具身多模态动作模型，使夹爪机器人具备空间推理和任务规划能力

EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型，具备70亿参数，通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集，增强空间推理和任务规划能力。

616 3 3

来自：多模态版块

蚝油菜花

|

存储人工智能开发者

|

博文

GitHub 推出免费版 GitHub Copilot：提供每月2,000次代码补全和50条聊天消息，支持多种主流大模型

GitHub 推出了 GitHub Copilot Free，提供每月 2,000 代码补全和 50 聊天消息，支持多种模型和功能，助力 1.5 亿开发者。

1461 5 5

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能算法

|

博文

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具，支持图像和视频的多样化标注样式，适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。

4139 2 2

来自：计算机视觉版块

modelscope

|

人工智能文字识别语音技术

|

博文

Megrez-3B-Omni: 首个端侧全模态理解开源模型

Megrez-3B-Omni是由无问芯穹（Infinigence AI）研发的端侧全模态理解模型，基于无问大语言模型Megrez-3B-Instruct扩展，同时具备图片、文本、音频三种模态数据的理解分析能力。

932 3 3

Lucky_H

|

博文

【求助】ModelScope Notebook中如何使用conda

在魔搭创建的CPU环境中，虽然在Terminal中可以正常使用miniconda，但在Notebook中无法切换到conda环境，只能选择默认的ipykernel。如何解决这一问题？

491 12 12

蚝油菜花

|

机器学习/深度学习人工智能编解码

|

博文

MV-Adapter：上交大、北航和 VAST 等联合开源多视图一致图像生成模型，将预训练的文生图扩散模型转为多视图生成器

MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器，支持生成高分辨率的多视角图像。

1002 18 19

来自：多模态版块

蚝油菜花

|

人工智能文字识别数据挖掘

|

博文

MarkItDown：微软开源的多格式转Markdown工具，支持将PDF、Word、图像和音频等文件转换为Markdown格式

MarkItDown 是微软开源的多功能文档转换工具，支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式，具备 OCR 文字识别、语音转文字和元数据提取等功能。

4743 9 9

来自：多模态版块

蚝油菜花

|

人工智能数据可视化 JavaScript

|

博文

NodeTool：AI 工作流可视化构建器，通过拖放节点设计复杂的工作流，集成 OpenAI 等多个平台

NodeTool 是一个开源的 AI 工作流可视化构建器，通过拖放节点的方式设计复杂的工作流，无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型，并与 Hugging Face、OpenAI 等平台集成，提供模型访问能力。

1104 14 14

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

VMB（Visuals Music Bridge）是由中科院联合多所高校机构推出的多模态音乐生成框架，能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

766 7 7

来自：多模态版块

蚝油菜花

|

机器学习/深度学习编解码人工智能

|

博文

ColorFlow：腾讯和清华大学联合推出的图像序列着色模型，通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

ColorFlow是由清华大学和腾讯ARC实验室共同推出的图像序列着色模型，通过检索增强、上下文学习和超分辨率技术，确保黑白图像序列的着色与参考图像颜色一致，适用于漫画、动画制作等工业应用。

1754 15 15

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Manga Image Translator 是一款开源的漫画图片文字翻译工具，支持多语言翻译并能将翻译后的文本无缝嵌入原图，保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型，提供批量处理和在线/离线翻译功能。

3486 17 17

来自：计算机视觉版块

modelscope

|

人工智能 API 开发工具

|

博文

ModelScope魔搭12月版本发布月报

为了给开发者提供更便捷的开源模型API访问方式，我们正式启动了 ModelScope API-Inference 的公测。在开源工具链方面，我们进行了ModelScope 1.21.0的新版本发布，提供了llamafile的集成以及模型加载/下载链路的优化，SWIFT 3.0大版本也已经合并主干，在这个基础上新模型的支持会更加顺畅与便利。

764 3 3