|
11月前
|
人工智能 编解码
|

CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。

1077 5
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 并行计算
|

Titans:谷歌新型神经记忆架构,突破 Transformer 长序列处理的瓶颈

Titans 是谷歌推出的新型神经网络架构,通过神经长期记忆模块突破 Transformer 在处理长序列数据时的瓶颈,支持并行计算,显著提升训练效率。

426 5
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 并行计算
|

Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格

Kokoro-TTS 是一款轻量级文本转语音模型,支持多语言和多语音风格生成,具备实时处理能力和低资源占用,适用于多种应用场景。

1803 5
来自: 语音  版块
|
11月前
|
人工智能 vr&ar
|

PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型

PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。

1420 4
来自: 计算机视觉  版块
|
11月前
|
人工智能 编解码 自然语言处理
|

CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。

436 6
来自: 计算机视觉  版块
|
11月前
|

MFTCoder 重磅升级v0.5.0发布,支持SST加训与DPO

CodeFuse于2023年9月开源了多任务微调框架MFTCoder,支持多个任务并行微调,解决数据量不平衡等问题。具备高效训练、PEFT微调等特性,支持多种主流LLMs。最新v0.5.0版本新增DPO、SST加训等功能,代码已开源至GitHub,欢迎试用和贡献。

199 1
|
11月前
|
自然语言处理 机器人 开发者
|

大模型的综合分析报告

- **性能**:所提及的模型在性能上均表现出色,特别是在语言生成和理解方面。参数规模较大的模型(如DeepSeek-LLM-67B-Chat、Yi-1.5-9B-Chat等)通常能提供更为丰富的语言处理能力。 - **显存**:显存需求因模型参数规模而异,但一般较大规模的模型需要较高配置的硬件支持。 - **生态**:Llama、GLM等模型在开源社区中较为受欢迎,拥有一定的用户基础和生态支持。其他模型可能处于发展初期,生态支持有待加强。 - **更新频率和时间**:具体更新频率可能因开发者团队和模型版本而异。但一般而言,开源模型可能会不断更新以改进性能和功能。 - **效果评估**:在对话

426 3
|
11月前
|
JSON 测试技术 语音技术
|

VITA-1.5: 迈向GPT-4o级实时视频-语音交互

近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。

627 66
|
11月前
|
测试技术
|

通义千问团队开源全新的过程奖励模型PRM!

近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。

1057 14
|
11月前
|
人工智能 自然语言处理 算法
|

OpenCSG开源最大中文合成数据集Chinese Cosmopedia

近年来,生成式语言模型(GLM)的飞速发展正在重塑人工智能领域,尤其是在自然语言处理、内容创作和智能客服等领域展现出巨大潜力。

285 15
|
11月前
|
数据采集 人工智能 自然语言处理
|

魔搭社区每周速递(1.5-1.18)

🙋魔搭ModelScope本期社区进展:新增3239个模型,711个数据集,192个创新应用, 16篇内容

597 11
|
11月前
|
存储 IDE 开发工具
|

ModelScope魔搭25年1月版本发布月报

随着2025年帷幕的缓缓拉开,ModelScope团队怀着新年新气象的美好期许,为广大开发者带来了1月份的重磅更新。

506 13
|
11月前
|
人工智能 监控 安全
|

设计:智能医疗设备管理系统——AI医疗守护者

该系统将结合人工智能技术与区块链技术,实现对医疗设备的智能化管理。目标是提高医疗设备的管理效率,确保医疗设备的数据安全,优化医疗资源的配置,提升医疗服务质量。

856 5
|
11月前
|
人工智能 计算机视觉 开发者
|

SmartEraser:中科大推出图像对象移除技术,轻松移除照片中的不想要元素,保留完美瞬间

SmartEraser 是由中科大与微软亚洲研究院联合开发的图像编辑技术,能够精准移除图像中的指定对象,同时保留周围环境的细节和结构,适用于复杂场景的图像处理。

315 8
来自: 计算机视觉  版块
|
11月前
|
Web App开发 人工智能 JSON
|

AutoMouser:AI Chrome扩展程序,实时跟踪用户的浏览器操作,自动生成自动化操作脚本

AutoMouser是一款Chrome扩展程序,能够实时跟踪用户交互行为,并基于OpenAI的GPT模型自动生成Selenium测试代码,简化自动化测试流程。

786 17
来自: 多模态  版块
|
11月前
|
人工智能 达摩院 计算机视觉
|

SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术

SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。

487 9
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 测试技术
|

ParGo:字节与中山大学联合推出的多模态大模型连接器,高效对齐视觉与语言模态

ParGo 是字节与中山大学联合推出的多模态大模型连接器,通过全局与局部视角联合,提升视觉与语言模态的对齐效果,支持高效连接、细节感知与自监督学习。

267 6
来自: 多模态  版块
|
11月前
|
Web App开发 机器学习/深度学习 人工智能
|

Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音

Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。

1096 17
来自: 语音  版块
|
11月前
|
人工智能 算法 前端开发
|

OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备

OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。

886 72
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 监控
|

Uni-AdaFocus:清华大学开源高效视频理解框架,根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架,通过自适应聚焦机制动态调整计算资源分配,显著提升视频处理效率。

188 6
来自: 多模态  版块
|
11月前
|
人工智能 编解码 测试技术
|

Mini-InternVL:轻量级多模态大模型,4B 参数量媲美 InternVL2-76B

Mini-InternVL 是上海AI Lab联合清华等机构推出的轻量级多模态大模型,支持高效推理、跨领域适应和动态分辨率输入,适用于多种场景。

837 12
来自: 多模态  版块
|
11月前
|
人工智能 计算机视觉
|

MangaNinja:开源线稿着色工具,自动匹配图像风格,一键快速上色

MangaNinja 是一款基于参考图像的线稿着色工具,通过创新的补丁重排模块和点驱动控制方案,实现精准颜色匹配和复杂场景处理,适用于漫画、插画和数字艺术创作。

544 10
来自: 计算机视觉  版块
|
11月前
|
人工智能 前端开发 关系型数据库
|

过年了,用魔搭+魔笔打造您的 AI 春节贺卡生成器!

本文介绍了如何获取和利用现有的大模型资源,结合魔笔低代码,低成本、高效率地打造一个 AI 春节贺卡生成器。

858 17
|
11月前
|
人工智能 架构师 决策智能
|

agentUniverse X 浙大太乙平台,开源共建招募令来啦,3万奖金等你拿!

agentUniverse 首期开源共建活动正式上线啦!3万奖金池等大家贡献瓜分~

782 11
|
11月前
|
编解码 文字识别 语音技术
|

MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建,共 8B 参数,通过端到端方式训练和推理。相比 MiniCPM-V 2.6,该模型在性能上有了显著提升,并支持了实时语音对话和多模态流式交互的新功能。

1649 70
|
11月前
|
人工智能 算法 数据处理
|

InternLM3开源发布!4T数据达到18T效果,成本省75%,首度融合深度思考与对话能力!

1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct,其综合性能超过了同量级开源模型,节约训练成本75%以上;同时,InternLM3首次在通用模型中实现了常规对话与深度思考能力融合,可应对更多真实使用场景。

378 1
|
11月前
|
机器学习/深度学习 人工智能 缓存
|

每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色

RAIN 是一款创新的实时动画生成工具,支持在消费级硬件上实现无限视频流的实时动画化,适用于直播、虚拟角色生成等场景。

624 25
来自: 计算机视觉  版块
|
11月前
|
人工智能 数据处理 语音技术
|

Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手

Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。

841 23
来自: 多模态  版块
|
11月前
|
人工智能 搜索推荐 开发工具
|

24.7K Star!用 KHOJ 打造你的AI第二大脑,自动整合和更新多源知识,轻松构建个人知识库

KHOJ 是一款开源的个人化 AI 助手,支持多源知识整合、语义搜索、个性化图像生成等功能,帮助用户高效管理知识库。

1142 23
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手

RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。

2559 18
来自: 语音  版块
|
11月前
|
人工智能 数据可视化 开发者
|

FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序

FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。

980 14
来自: 多模态  版块
|
11月前
|
人工智能 测试技术
|

LlamaV-o1:全能多模态视觉推理模型,推理得分超越其他开源模型,推理速度翻5倍

LlamaV-o1 是一款多模态视觉推理模型,通过逐步推理学习方法解决复杂任务,支持透明推理过程,适用于医疗、金融等领域。

283 16
来自: 多模态  版块
|
11月前
|
人工智能 语音技术 iOS开发
|

MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行

MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。

887 10
来自: 多模态  版块
|
11月前
|
测试技术
|

Valley2,基于电商场景的多模态大模型

Valley2是一种新颖的多模态大型语言模型,旨在通过可扩展的视觉-语言设计增强各个领域的性能,并拓展电子商务和短视频场景的实际应用边界。

549 3
|
11月前
|
数据采集 人工智能 自然语言处理
|

Riona-AI-Agent:自媒体 AI 代理!自动点赞、评论、个性化内容生成和发布等交互任务

Riona-AI-Agent 是一款基于 Node.js 和 TypeScript 的 AI 自动化工具,支持 Instagram、Twitter 等平台的自动化交互,生成高质量内容,提升社交媒体管理效率。

968 13
来自: 多模态  版块
|
11月前
|
存储 人工智能 图计算
|

MiniRAG:迷你 RAG 系统加成小型语言模型,爆发出与大型语言模型相当的性能

MiniRAG 是香港大学推出的新型 RAG 系统,专为资源受限场景设计,支持高效知识检索与推理,适用于多种应用场景。

541 12
来自: 自然语言处理  版块
|
11月前
|
人工智能 文字识别 异构计算
|

NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理

NVIDIA-Ingest 是英伟达开源的智能文档提取工具,支持 PDF、Word、PPT 等多种格式,提供并行处理和 GPU 加速,适用于企业内容管理和生成式应用。

523 18
来自: 多模态  版块
|
11月前
|
人工智能 开发框架 自然语言处理
|

Eko:一句话就能快速构建复杂工作流的 AI 代理开发框架!快速实现自动操作电脑和浏览器完成任务

Eko 是 Fellou AI 推出的开源 AI 代理开发框架,支持自然语言驱动,帮助开发者快速构建从简单指令到复杂工作流的智能代理。

1447 12
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪

Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。

980 11
来自: 多模态  版块
|
11月前
|
人工智能 供应链 PyTorch
|

TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型

TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。

1295 24
来自: 科学计算  版块
|
11月前
|
人工智能 编解码 测试技术
|

ViTPose:最小只有100M的身体姿态估计模型,精确识别人体关节、手、脚等关键点

ViTPose 是基于 Transformer 架构的人体姿态估计模型,能够精准定位人体关键点,支持多种规模版本,适用于运动分析、虚拟现实等场景。

500 8
来自: 计算机视觉  版块
|
11月前
|
JSON Devops 决策智能
|

muAgent v2.2版本发布,支持ekg-sdk使用

CodeFuse-muAgent 是一款创新的 Agent 框架,将知识图谱(KG)直接升级为 Agent 编排引擎。它基于大语言模型(LLM)和事理图谱(EKG),结合多智能体、工具学习等技术,通过拖拽式画布和轻量级文本编辑,实现复杂 SOP 流程的自动化。支持复杂推理、在线协同、人工交互和即时知识应用。该框架已在蚂蚁集团多个 DevOps 场景中成功落地。

345 1
|
11月前
|
人工智能 自然语言处理 安全
|

微软phi-4来啦!小模型之光,14B科学、代码等能力超70B模型效果!

微软研究院的最新成果——Phi-4来啦!近日,微软公布了Phi家族的最新一代模型Phi-4的技术报告,模型同步开源,Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的基础上,训练数据量为9.8 T tokens, 目标是确保小模型使用专注于高质量和高级推理的数据进行训练。

781 1
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架

Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。

1004 23
来自: 多模态  版块
|
11月前
|
人工智能 知识图谱
|

SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务

SVFR 是一个通用视频人脸修复框架,支持人脸修复、着色和修复任务,基于 Stable Video Diffusion 技术,提供高质量的视频修复效果。

734 23
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

通义千问Qwen征文活动获奖公布

Qwen征文获奖公布啦!

800 3
|
11月前
|
机器学习/深度学习 人工智能 安全
|

GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用

GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。

665 24
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepSeek Artifacts:在线实时预览的前端 AI 编程工具,基于DeepSeek V3快速生成React App

DeepSeek Artifacts是Hugging Face推出的免费AI编程工具,基于DeepSeek V3,支持快速生成React和Tailwind CSS代码,适合快速原型开发和前端组件构建。

2366 39
来自: 自然语言处理  版块
|
11月前
|
人工智能 JSON 测试技术
|

Search-o1:人大清华联合推出动态检索推理框架,使模型能够在推理过程中动态检索外部知识

Search-o1 是中国人民大学和清华大学联合推出的创新框架,通过动态知识检索和精炼,提升大型推理模型在复杂任务中的推理能力。

482 23
来自: 自然语言处理  版块
|
11月前
|
人工智能 并行计算 搜索推荐
|

SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!

SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。

1808 30
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14531
内容
6
活动
3801
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互