ModelScope模型即服务-文章-第37页-阿里云开发者社区

蚝油菜花

|

机器学习/深度学习人工智能

|

博文

SNOOPI：创新 AI 文本到图像生成框架，提升单步扩散模型的效率和性能

SNOOPI是一个创新的AI文本到图像生成框架，通过增强单步扩散模型的指导，显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术，分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型，尤其在HPSv2得分达到31.08，成为单步扩散模型的新标杆。

589 10 11

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Llama 3.3：Meta AI 开源新的纯文本语言模型，专注于多语言对话优化

Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型，支持多语言对话，具备高效、低成本的特点，适用于多种应用场景，如聊天机器人、客户服务自动化、语言翻译等。

898 13 13

来自：自然语言处理版块

蚝油菜花

|

人工智能搜索推荐开发者

|

博文

Aurora：xAI 为 Grok AI 推出新的图像生成模型，xAI Premium 用户可无限制访问

Aurora是xAI为Grok AI助手推出的新图像生成模型，专注于生成高逼真度的图像，特别是在人物和风景图像方面。该模型支持文本到图像的生成，并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异，免费用户每天能生成三张图像，而Premium用户则可享受无限制访问。

576 11 11

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

FullStack Bench：字节豆包联合M-A-P社区开源的全新代码评估基准

FullStack Bench是由字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准，专注于全栈编程和多语言编程能力评估。该基准覆盖超过11种真实编程场景，包含3374个问题，涉及16种编程语言，旨在更有效地衡量大模型在现实世界中的代码开发能力。

660 5 5

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能达摩院

|

博文

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法，能够有效消除背景噪声，保留语音清晰度，并提供先进的预训练模型和训练脚本，支持研究人员和开发者进行语音处理任务。

3461 3 3

来自：语音版块

蚝油菜花

|

机器学习/深度学习人工智能 Linux

|

博文

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音（TTS）模型，支持13种语言，具备零样本和少样本语音合成能力，语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT，具有高度准确性和快速合成能力，适用于多种应用场景。

1726 3 4

来自：语音版块

蚝油菜花

|

存储人工智能

|

博文

Optimus-1：哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Optimus-1是由哈尔滨工业大学（深圳）和鹏城实验室联合推出的智能体框架，旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验，通过混合多模态记忆模块、知识引导规划器和经验驱动反射器，显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。

480 7 7

来自：多模态版块

袁长猛

|

机器学习/深度学习人工智能自然语言处理

|

博文

模型训练数据-MinerU一款Pdf转Markdown软件

MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具，专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式，同时支持从网页和电子书中提取内容，显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链，能自动识别乱码，保留文档结构，并将公式转换为LaTeX格式，广泛适用于学术、财务、法律等领域。

3080 4 4

modelscope

|

人工智能算法搜索推荐

|

博文

2024 “AI+硬件创新大赛”获奖名单出炉，浙大、上交与复旦联队等夺冠

2024年11月30日，由开放源子开源基金会主办，魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。

592 6 6

蚝油菜花

|

机器学习/深度学习人工智能

|

博文

Micro LLAMA：教学版 LLAMA 3模型实现，用于学习大模型的核心原理

Micro LLAMA是一个精简的教学版LLAMA 3模型实现，旨在帮助学习者理解大型语言模型的核心原理。该项目仅约180行代码，便于理解和学习。Micro LLAMA基于LLAMA 3中最小的8B参数模型，适合对深度学习和模型架构感兴趣的研究者和学生。

398 18 18

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能计算机视觉

|

博文

ConsisID：北大联合鹏城实验室等机构推出的文本到视频生成模型

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型，专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构，能够在多个评估维度上超越现有技术，推动身份一致性视频生成技术的发展。

519 73 74

来自：计算机视觉版块

蚝油菜花

|

人工智能关系型数据库数据库

|

博文

Perplexideez：开源本地 AI 搜索助手，智能搜索信息来源追溯

Perplexideez 是一款开源的本地 AI 搜索助手，旨在通过智能搜索和信息来源追溯功能，提升用户的搜索体验。它支持多用户、单点登录（SSO），并提供美观的搜索结果展示。Perplexideez 基于 Postgres 数据库，集成了 Ollama 或 OpenAI 兼容的端点，使用 SearXNG 实例进行网络搜索。

463 14 14

来自：自然语言处理版块

蚝油菜花

|

人工智能编解码网络架构

|

博文

GenCast：谷歌DeepMind推出的AI气象预测模型

GenCast是由谷歌DeepMind推出的革命性AI气象预测模型，基于扩散模型技术，提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS，尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报，显著提高预测效率，并且已经开源，包括代码和模型权重，支持更广泛的天气预报社区和研究。

1423 14 14

来自：科学计算版块

蚝油菜花

|

人工智能编解码自动驾驶

|

博文

MagicDriveDiT：华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构，通过流匹配增强模型的可扩展性，并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频，提供对视频内容的精确控制，适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。

438 17 17

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

GPT学术优化：专为学术研究和写作设计的多功能开源项目

GPT学术优化是一个专为学术研究和写作设计的多功能开源项目，集成了论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能。本文将详细介绍GPT学术优化的主要功能、技术原理以及如何运行该项目的教程。

738 11 11

来自：自然语言处理版块

蚝油菜花

|

存储人工智能数据库

|

博文

Codel：AI代理工具，支持在终端、浏览器、编辑器执行复杂任务和项目

Codel是一款全自主AI代理工具，支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中，具备自主操作能力，内置浏览器和文本编辑器，所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务，如创建项目结构、进行网络搜索等，适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。

518 11 11

来自：自然语言处理版块

蚝油菜花

|

人工智能搜索推荐

|

博文

PersonaCraft：首尔国立大学推出的单参考图像生成多身份全身图像技术

PersonaCraft是由首尔国立大学推出的创新技术，能够从单一参考图像生成多个人物的逼真全身图像。该技术结合了扩散模型和3D人类建模，有效处理人物间的遮挡问题，并支持用户自定义身体形状调整，为多人图像合成树立了新标准。

480 9 9

来自：计算机视觉版块

蚝油菜花

|

人工智能

|

博文

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

腾讯推出的开源视频生成模型HunyuanVideo，拥有130亿参数，是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性，能生成带有背景音乐的视频，推动了视频生成技术的发展和应用。

1389 16 16

来自：计算机视觉版块

蚝油菜花

|

人工智能自然语言处理前端开发

|

博文

Lobe Vidol：AI数字人交互平台，可与虚拟人和3D模型聊天互动

Lobe Vidol是一款开源的AI数字人交互平台，允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持，如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。

1119 7 7

来自：多模态版块

蚝油菜花

|

机器学习/深度学习存储人工智能

|

博文

EfficientTAM：Meta AI推出的视频对象分割和跟踪模型

EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型，旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer（ViT）作为图像编码器，并引入高效记忆模块，以降低计算复杂度，同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能，具有更快的处理速度和更少的参数，特别适用于移动设备上的视频对象分割应用。

571 9 9

来自：计算机视觉版块

蚝油菜花

|

SQL 存储人工智能

|

博文

Vanna：开源 AI 检索生成框架，自动生成精确的 SQL 查询

Vanna 是一个开源的 Python RAG（Retrieval-Augmented Generation）框架，能够基于大型语言模型（LLMs）为数据库生成精确的 SQL 查询。Vanna 支持多种 LLMs、向量数据库和 SQL 数据库，提供高准确性查询，同时确保数据库内容安全私密，不外泄。

2258 7 8

来自：自然语言处理版块

蚝油菜花

|

人工智能 vr&ar

|

博文

GeneMAN：上海AI Lab联合北大等高校推出的3D人体模型创建框架

GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型，适用于多种应用场景，如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。

818 7 7

来自：计算机视觉版块

蚝油菜花

|

人工智能 PyTorch 算法框架/工具

|

博文

StableAnimator：复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态，直接合成高保真度且保持人物身份一致性的视频，无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

1059 7 7

来自：计算机视觉版块

modelscope

|

存储编解码 Dart

|

博文

腾讯开源混元视频生成模型，这效果！太稳了吧！

腾讯开源了HunyuanVideo，这是一个超过130亿参数的视频生成模型，具备高性能的图像-视频联合生成能力。通过创新的模型架构和高效的训练基础设施，HunyuanVideo在视觉质量、运动多样性和文本-视频对齐等方面表现出色，超越了多个现有模型。该项目旨在推动视频生成技术的发展，促进社区交流与创新。

1672 11 14

modelscope

|

数据采集自然语言处理数据处理

|

博文

智源研究院发布中文高质量数据集CCI3.0-HQ技术报告

智源研究院发布了CCI3.0-HQ中文预训练数据集，采用先进的混合质量过滤方法，显著提升数据完整性和性能。该数据集在多项实验中表现优异，超越了其他主流中文语料库。同时，智源还推出了CCI3-HQ分类器，大幅改进了大语言模型训练中的数据选择流程。

842 12 12

modelscope

|

人工智能 API 开发者

|

博文

用 OpenVINO™ 部署 GLM-Edge 全家桶

11月29日，智谱发布了GLM-Edge系列模型，包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B、GLM-Edge-V-5B，适用于手机、车机及PC平台。文章介绍了如何使用OpenVINO™工具套件在本地部署这些模型，实现高效的AI任务处理，如聊天与图像理解。提供了详细的环境配置、模型转换与量化、以及具体的应用示例。

607 16 17

modelscope

|

SQL API

|

博文

金融行业 · 大模型挑战赛｜用大模型理解金融市场

2024金融行业大模型挑战赛即将开启，旨在推动大型语言模型在金融领域的应用。比赛提供金融多轮问答数据集，参赛者需使用GLM-4模型API，通过SQL、API等技术解决金融问题，涵盖数据查询、统计分析及复杂问题处理。赛事分初赛、复赛和决赛，总奖金20万元。报名时间为2024年12月2日至2025年2月6日。

1419 16 16

CrissChan

|

SQL 自然语言处理 IDE

|

博文

LLM的IDE使用一段时间后的体会

使用Windsurf开发Web应用，全程无需手写代码，仅通过自然语言交流指导大模型完成任务。初期体验流畅高效，尤其适合快速实现小规模项目。然而，面对需求变更时，代码设计易受影响，需细致指导大模型以保持良好设计。整体而言，LLM辅助编程如同结对编程中的导航员角色，用户需提升自身指导能力以发挥其最大效能。

568 0 0

蚝油菜花

|

人工智能

|

博文

AnchorCrafter：中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型，能够自动生成高保真度的主播风格产品推广视频，通过整合人-物交互（HOI）技术，实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法，为在线广告和消费者参与提供了新的可能性。

1929 31 31

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能达摩院

|

博文

MVGenMaster：复旦联合阿里等实验室推出的多视图扩散模型

MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型，专注于新视角合成（NVS）任务。该模型通过整合3D先验信息，显著提升了NVS的泛化和3D一致性，并能从单一图像生成多达100个新视图。此外，研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M，以支持模型的训练和优化。

446 27 28

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

360Zhinao2-7B：360推出自研360智脑大模型的升级版

360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版，涵盖基础模型及多种上下文长度的聊天模型。该模型在语言理解与生成、聊天能力、数学逻辑推理等方面表现出色，支持多语言和多上下文长度，适用于多种商业应用场景。

650 23 23

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理开发者

|

博文

Co-op Translator：微软推出面向开发者的开源多语言翻译工具

微软推出的开源多语言翻译工具Co-op Translator，基于Azure AI服务，能够自动化处理项目文档和图像中的文本翻译，简化技术文档的本地化流程，促进全球开发者协作。

571 25 25

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理 JavaScript

|

博文

Agent-E：基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统，专注于浏览器内的自动化操作。它能够执行多种复杂任务，如填写表单、搜索和排序电商产品、定位网页内容等，从而提高在线效率，减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。

1374 5 5

来自：多模态版块

蚝油菜花

|

存储人工智能自然语言处理

|

博文

Delta-CoMe：清华联合OpenBMB等高校开源的新型增量压缩算法

Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术，显著减少了大型语言模型的存储和内存需求，同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务，并在推理速度上有所提升。

494 6 6

来自：科学计算版块

蚝油菜花

|

Web App开发机器学习/深度学习人工智能

|

博文

Magic Copy：开源的 AI 抠图工具，在浏览器中自动识别图像进行抠图

Magic Copy 是一款开源的 AI 抠图工具，支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术，能够自动识别图像中的前景对象并提取出来，简化用户从图片中提取特定元素的过程，提高工作效率。

1012 7 7

来自：计算机视觉版块

蚝油菜花

|

人工智能测试技术 API

|

博文

FlagEvalMM：智源开源的多模态模型评测框架

FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架，旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标，采用评测与模型推理解耦的设计，提升评测效率，便于快速适配新任务和模型。

906 11 11

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

GLM-Edge：智谱开源的端侧大语言和多模态系列模型

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型，旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行，适用于智能助手、聊天机器人、图像标注等多种应用场景。

866 7 7

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能数据格式

|

博文

Make-It-Animatable：中科大联合腾讯推出的自动生成即时动画准备资产

Make-It-Animatable是由中国科学技术大学和腾讯联合推出的数据驱动框架，能够在不到一秒内将任何3D人形模型转换为可用于动画的状态。该框架支持多种3D数据格式，并采用从粗到细的表示策略和结构感知建模，显著提升了动画准备的质量和速度。

331 7 7

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Voice-Pro是一款开源的多功能音频处理工具，集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言，适用于教育、娱乐和商业等多个领域，为用户提供一站式的音频处理解决方案，极大地提高工作效率和音频处理的便捷性。

1745 10 10

来自：语音版块

蚝油菜花

|

传感器人工智能数据可视化

|

博文

iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略，旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征，无需精确相机校准和点云分割，显著提高了机器人在未见过的环境中的实用性和灵活性。

334 11 11

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能编解码

|

博文

OminiControl：AI图像生成框架，实现图像主题控制和空间精确控制

OminiControl 是一个高度通用且参数高效的 AI 图像生成框架，专为扩散变换器模型设计，能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数（0.1%），支持主题驱动控制和空间对齐控制，适用于多种图像生成任务。

526 10 10

来自：计算机视觉版块

蚝油菜花

|

人工智能人机交互

|

博文

Proactive Agent：清华联合面壁智能开源的新一代主动Agent交互范式

Proactive Agent是由清华大学联合面壁智能等团队推出的新一代主动Agent交互范式。它具备主动性，能够预测用户需求并在没有直接指令的情况下采取行动。本文详细介绍了Proactive Agent的主要功能、技术原理以及如何运行和评估其性能。

1358 9 9

来自：自然语言处理版块

aliyun5606190238

|

人工智能自然语言处理算法

|

博文

魔搭社区每周速递（11.24-11.30）

魔搭ModelScope本期社区进展：1361个模型，29个数据集，44个创新应用，5 篇内容

446 1 1

蚝油菜花

|

人工智能

|

博文

Fancy123：华中科技和华南理工推出的3D网格生成技术

Fancy123是由华中科技大学和华南理工大学联合推出的3D网格生成技术，能够从单张图片生成高质量的3D网格。该技术通过即插即用的变形技术，解决了多视图图像的局部不一致性，提高了网格对输入图像的保真度，并确保了高清晰度。Fancy123在定性和定量实验中表现出色，能够无缝集成到现有的单图像到3D的方法中。

259 5 5

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能 Linux

|

博文

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

SAM 2.1是由Meta（Facebook的母公司）推出的先进视觉分割模型，专为图像和视频处理设计。该模型基于Transformer架构和流式记忆设计，实现了实时视频处理，并引入了数据增强技术，提升了对视觉相似物体和小物体的识别能力。SAM 2.1的主要功能包括图像和视频分割、实时视频处理、用户交互式分割、多对象跟踪以及改进的遮挡处理能力。

1664 6 6

来自：计算机视觉版块

蚝油菜花

|

存储人工智能缓存

|

博文

Mooncake：月之暗面Kimi联合清华等机构推出的大模型推理架构

Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心，通过分布式设计和资源优化，显著提升了大模型推理的吞吐量和效率，同时降低了算力开销。Mooncake在长上下文场景中表现出色，支持多种应用场景，如自然语言处理、内容推荐系统和搜索引擎等。

1909 6 6

来自：自然语言处理版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Sketch2Lineart：AI绘画工具，自动将手绘草图转换成清晰的线条画

Sketch2Lineart是一款基于人工智能的绘画工具，能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能，如草图转线稿、自动描述生成、细节调整和风格定制等，适用于艺术创作、产品设计、教育培训等多个领域。

1636 60 60

来自：计算机视觉版块

蚝油菜花

|

人工智能自然语言处理

|

博文

Promptriever：信息检索模型，支持自然语言提示响应用户搜索需求

Promptriever 是一种新型信息检索模型，由约翰斯·霍普金斯大学和 Samaya AI 联合推出。该模型能够接受自然语言提示，并以直观的方式响应用户的搜索需求。通过在 MS MARCO 数据集上的训练，Promptriever 在标准检索任务上表现出色，能够更有效地遵循详细指令，提高查询的鲁棒性和检索性能。

352 6 6

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理算法

|

博文

Devika AI：开源的 AI 软件开发工具，理解和执行复杂的人类指令

Devika AI 是一款开源的 AI 软件开发工具，能够理解和执行复杂的人类指令。它通过分解任务、信息搜集和代码生成，帮助开发者提高效率，减少人工干预。本文将详细介绍 Devika AI 的功能、技术原理以及如何运行和配置该工具。

831 9 9

来自：自然语言处理版块

蚝油菜花

|

人工智能机器人 vr&ar

|

博文

Find3D：加州理工学院推出的3D部件分割模型

Find3D是由加州理工学院推出的3D部件分割模型，能够根据任意文本查询分割任意对象的任何部分。该模型利用强大的数据引擎自动从互联网上的3D资产生成训练数据，并通过对比训练方法训练出一个可扩展的3D模型。Find3D在多个数据集上表现出色，显著提升了平均交并比（mIoU），并能处理来自iPhone照片和AI生成图像的野外3D构建。

395 5 5

来自：计算机视觉版块

最新

文章

视频

问答

推荐

SNOOPI：创新 AI 文本到图像生成框架，提升单步扩散模型的效率和性能

Llama 3.3：Meta AI 开源新的纯文本语言模型，专注于多语言对话优化

Aurora：xAI 为 Grok AI 推出新的图像生成模型，xAI Premium 用户可无限制访问

FullStack Bench：字节豆包联合M-A-P社区开源的全新代码评估基准

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

Optimus-1：哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

模型训练数据-MinerU一款Pdf转Markdown软件

2024 “AI+硬件创新大赛”获奖名单出炉，浙大、上交与复旦联队等夺冠

Micro LLAMA：教学版 LLAMA 3模型实现，用于学习大模型的核心原理

ConsisID：北大联合鹏城实验室等机构推出的文本到视频生成模型

Perplexideez：开源本地 AI 搜索助手，智能搜索信息来源追溯

GenCast：谷歌DeepMind推出的AI气象预测模型

MagicDriveDiT：华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

GPT学术优化：专为学术研究和写作设计的多功能开源项目

Codel：AI代理工具，支持在终端、浏览器、编辑器执行复杂任务和项目

PersonaCraft：首尔国立大学推出的单参考图像生成多身份全身图像技术

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

Lobe Vidol：AI数字人交互平台，可与虚拟人和3D模型聊天互动

EfficientTAM：Meta AI推出的视频对象分割和跟踪模型

Vanna：开源 AI 检索生成框架，自动生成精确的 SQL 查询

GeneMAN：上海AI Lab联合北大等高校推出的3D人体模型创建框架

StableAnimator：复旦联合微软等机构推出的端到端身份一致性视频扩散框架

腾讯开源混元视频生成模型，这效果！太稳了吧！

智源研究院发布中文高质量数据集CCI3.0-HQ技术报告

用 OpenVINO™ 部署 GLM-Edge 全家桶

金融行业 · 大模型挑战赛 ｜用大模型理解金融市场

LLM的IDE使用一段时间后的体会

AnchorCrafter：中科院联合腾讯推出的AI虚拟主播带货视频制作技术

MVGenMaster：复旦联合阿里等实验室推出的多视图扩散模型

360Zhinao2-7B：360推出自研360智脑大模型的升级版

Co-op Translator：微软推出面向开发者的开源多语言翻译工具

Agent-E：基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

Delta-CoMe：清华联合OpenBMB等高校开源的新型增量压缩算法

Magic Copy：开源的 AI 抠图工具，在浏览器中自动识别图像进行抠图

FlagEvalMM：智源开源的多模态模型评测框架

GLM-Edge：智谱开源的端侧大语言和多模态系列模型

Make-It-Animatable：中科大联合腾讯推出的自动生成即时动画准备资产

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

OminiControl：AI图像生成框架，实现图像主题控制和空间精确控制

Proactive Agent：清华联合面壁智能开源的新一代主动Agent交互范式

魔搭社区每周速递（11.24-11.30）

Fancy123：华中科技和华南理工推出的3D网格生成技术

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

Mooncake：月之暗面Kimi联合清华等机构推出的大模型推理架构

Sketch2Lineart：AI绘画工具，自动将手绘草图转换成清晰的线条画

Promptriever：信息检索模型，支持自然语言提示响应用户搜索需求

Devika AI：开源的 AI 软件开发工具，理解和执行复杂的人类指令

Find3D：加州理工学院推出的3D部件分割模型

ModelScope模型即服务

活跃用户

相关产品

金融行业 · 大模型挑战赛｜用大模型理解金融市场