|
11月前
|
数据采集 人工智能 搜索推荐
|

SocraticLM:通过 AI 提问引导学生主动思考,中科大与科大讯飞联合推出苏格拉底式教育大模型

SocraticLM 是由中科大和科大讯飞联合开发的苏格拉底式教学大模型,通过提问引导学生主动思考,提供个性化教学,显著提升教学效果。

753 9
来自: 自然语言处理  版块
|
11月前
|
人工智能 Python
|

ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成

ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。

832 8
来自: 自然语言处理  版块
|
11月前
|
程序员 API 开发者
|

实战阿里qwen2.5-coder 32B,如何配置Cline的Ollama API接口。

阿里Qwen2.5大模型开源免费,适合编程应用。在Ollama平台下载时,推荐选择带有“cline”字样的Qwen2.5-Coder版本,仅需额外下载适配文件,无需重复下载模型文件。Ollama环境永久免费,配置简单,效果出色,适合开发者使用。

5310 77
|
11月前
|
人工智能 JSON 自然语言处理
|

Jina Reader:一键将网页内容转为适合 LLM 处理的文本格式,自动抓取和清洗网页内容,支持多种输出格式

Jina Reader 是一款由 Jina AI 推出的开源工具,能够将网页内容快速转换为适合大型语言模型(LLMs)处理的纯文本格式,支持多种输出格式和动态内容处理。

1707 20
来自: 自然语言处理  版块
|
11月前
|
人工智能 运维 测试技术
|

SEMIKONG:专为半导体领域设计的大型语言模型,支持制造优化、辅助 IC 设计等半导体制造任务

SEMIKONG 是专为半导体行业定制的大型语言模型,能够优化制造过程、辅助 IC 设计,并整合专家知识,推动领域特定 AI 模型的研究与应用。

790 7
来自: 自然语言处理  版块
|
11月前
|
人工智能 API
|

MMedAgent:专为医疗领域设计的多模态 AI 智能体,支持医学影像处理、报告生成等多种医疗任务

MMedAgent 是专为医疗领域设计的多模态AI智能体,支持多种医疗任务,包括医学影像处理、报告生成等,性能优于现有开源方法。

619 19
来自: 多模态  版块
|
11月前
|
人工智能 JSON API
|

LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力

LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。

553 77
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 开发工具
|

Languine:专为开发者设计的 AI 多语言翻译工具,快速生成100+种语言的准确翻译,简化应用程序的 i18n 国际化配置

Languine 是一款面向开发者的 AI 翻译工具,支持 100+ 种语言,自动化翻译流程,提升多语言应用开发效率。

467 15
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析

MarS 是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型 LMM,支持无风险环境下的交易策略测试、风险管理和市场分析。

437 8
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆

AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。

1386 12
来自: 多模态  版块
|
11月前
|
人工智能 物联网
|

AI电影从这个LoRA开始:魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉

魔搭社区LoRA创意挑战赛月度赛第三期来啦! 1月赛题揭晓:电影风格模型训练大赛

305 15
|
11月前
|
编解码 自然语言处理 JavaScript
|

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

11月29日,智谱正式提出 GLM-OS 概念,并发布 AutoGLM 和 GLM-PC 两款 Agent 产品。近期GLM-PC 的基座模型—— CogAgent-9B 开源,供社区进一步开发。

708 8
|
11月前
|
数据处理 语音技术 项目管理
|

人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感

提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。

455 9
|
11月前
|
人工智能
|

TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索

TITAN 是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示,生成病理报告。

483 8
来自: 多模态  版块
|
11月前
|
人工智能 数据挖掘 API
|

R2R:开源的 RAG 集成系统,支持多模态处理、混合搜索、知识图谱构建等增强检索技术

R2R 是一款先进的 AI 检索增强生成平台,支持多模态内容处理、混合搜索和知识图谱构建,适用于复杂数据处理和分析的生产环境。

979 3
来自: 自然语言处理  版块
|
11月前
|
存储 人工智能 JSON
|

RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控

RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。

479 7
来自: 自然语言处理  版块
|
11月前
|
敏捷开发 人工智能 JavaScript
|

Figma-Low-Code:快速将Figma设计转换为Vue.js应用,支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目,能够直接将 Figma 设计转换为 Vue.js 应用程序,减少设计师与开发者之间的交接时间,支持低代码渲染和数据绑定。

780 3
来自: 计算机视觉  版块
|
11月前
|
人工智能 测试技术 异构计算
|

TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换

TangoFlux 是由英伟达与新加坡科技设计大学联合开发的文本到音频生成模型,能够在3.7秒内生成30秒的高质量音频,支持文本到音频的直接转换和用户偏好优化。

398 6
来自: 语音  版块
|
11月前
|
人工智能
|

LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化

LangGraph 是一个基于图结构的开源框架,专为构建状态化、多代理系统设计,支持循环、持久性和人工干预,适用于复杂的工作流自动化。

1675 12
来自: 自然语言处理  版块
|
11月前
|
存储 人工智能 开发框架
|

Eliza:TypeScript 版开源 AI Agent 开发框架,快速搭建智能、个性的 Agents 系统

Eliza 是一个开源的多代理模拟框架,支持多平台连接、多模型集成,能够快速构建智能、高效的AI系统。

1296 8
来自: 多模态  版块
|
11月前
|
人工智能 数据处理 C#
|

AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能

微软推出的AI Dev Gallery,为Windows开发者提供开源AI工具包和示例库,支持本地运行AI模型,提升开发效率。

725 13
来自: 多模态  版块
|
11月前
|
人工智能 API
|

新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用

你是否想过自己也能动手搭建一个AI应用?现在,这个目标触手可及!

284 9
|
11月前
|
传感器 人工智能 自动驾驶
|

OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景

OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。

551 13
来自: 多模态  版块
|
11月前
|
人工智能 资源调度 数据可视化
|

StoryWeaver:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务

StoryWeaver 是厦门大学与网易伏羲联合推出的 AI 模型,通过知识图谱和角色定制技术,实现高质量的故事可视化。

646 18
来自: 计算机视觉  版块
|
11月前
|
人工智能 算法 测试技术
|

StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价

StockMixer 是上海交通大学推出的基于多层感知器的股票价格预测架构,通过指标、时间和股票混合实现高效预测。

757 11
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 编解码
|

StereoCrafter:腾讯开源将任意2D视频转换为立体3D视频的框架,适用于Apple Vision Pro等多种显示设备

StereoCrafter 是腾讯开源的框架,能够将单目2D视频转换为高保真度的立体3D视频,适用于多种显示设备。

788 8
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 算法
|

HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力

HuatuoGPT-o1 是香港中文大学与深圳大数据研究院联合推出的医学高级推理大模型,通过复杂推理和强化学习提升医学问题解决能力。

812 8
来自: 自然语言处理  版块
|
11月前
|
人工智能 JSON 安全
|

DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应

DeepSeek Engineer 是一款开源AI编程助手,通过命令行界面处理用户对话并生成结构化JSON,支持文件操作和代码生成。

1483 6
来自: 自然语言处理  版块
|
11月前
|
数据采集 传感器 人工智能
|

AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作

AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展,覆盖家居、餐饮、工业等五大核心场景。

1003 9
来自: 多模态  版块
|
11月前
|
数据采集 人工智能 自然语言处理
|

FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据

FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。

4106 71
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

GraphAgent:自动构建知识图谱,能够处理结构化和非结构化数据,并通过知识图谱展示复杂关系

GraphAgent 是香港大学和香港科技大学联合推出的智能图形语言助手,能够处理结构化和非结构化数据,并通过知识图谱展示复杂关系。

765 9
来自: 多模态  版块
|
11月前
|
人工智能 测试技术
|

VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则

VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。

282 9
来自: 计算机视觉  版块
|
11月前
|
人工智能 编解码 自然语言处理
|

AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。

442 8
来自: 多模态  版块
|
11月前
|
人工智能 UED
|

VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节

VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。

238 8
来自: 计算机视觉  版块
|
11月前
|
人工智能 自然语言处理 测试技术
|

AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道

AutoRAG 是一款自动优化 RAG(Retrieval-Augmented Generation)管道的工具,帮助用户找到最适合其数据和应用场景的最佳 RAG 管道。

652 12
来自: 自然语言处理  版块
|
11月前
|
人工智能 数据库
|

Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性

Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架,通过自动化反馈和校正循环,提升诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。

414 11
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 编解码
|

VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量

VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器,通过时空分离压缩机制和文本指导,实现了高效视频压缩与精准重建。

445 7
来自: 计算机视觉  版块
|
11月前
|
人工智能 测试技术
|

Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二

Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。

580 10
来自: 多模态  版块
|
11月前
|
人工智能 索引
|

Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒

Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。

580 19
来自: 计算机视觉  版块
|
11月前
|
人工智能 自然语言处理
|

联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解

联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,基于国产昇腾AI平台,优化中文语义理解,支持高质量图像生成。

709 20
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 存储 人工智能
|

MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式

MNN 是阿里巴巴开源的轻量级深度学习推理框架,支持多种设备和主流模型格式,具备高性能和易用性,适用于移动端、服务器和嵌入式设备。

2612 18
来自: 科学计算  版块
|
11月前
|
机器学习/深度学习 人工智能 算法
|

FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案

FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。

1135 13
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 算法
|

VidTok:微软开源的视频分词器,能够将视频内容转换为视觉 Token

VidTok 是微软开源的一款先进的视频分词器,支持连续和离散分词化,能够高效地将视频内容转换为视觉 Token,适用于多种应用场景。

244 15
来自: 计算机视觉  版块
|
11月前
|
人工智能 文字识别 自然语言处理
|

Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式

Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。

1518 19
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能
|

Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量

Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。

313 11
来自: 计算机视觉  版块
|
11月前
|
人工智能
|

EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一

EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。

523 26
来自: 多模态  版块
|
12月前
|
人工智能 JSON 算法
|

魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!

现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!

795 22
|
12月前
|
机器学习/深度学习 自然语言处理 并行计算
|

社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理

神经网络正越来越多地朝着使用大数据训练大型模型的方向发展,这种解决方案在许多任务中展现出了卓越的性能。然而,这种方法也引入了一个迫切需要解决的问题:当前的深度学习模型基于串行计算,这意味着随着网络层数的增加,训练和推理时间也会随之增长。

242 28
|
12月前
|
机器学习/深度学习 编解码 物联网
|

极致的显存管理!6G显存运行混元Video模型

混元 Video 模型自发布以来,已成为目前效果最好的开源文生视频模型,然而,这个模型极为高昂的硬件需求让大多数玩家望而却步。魔搭社区的开源项目 DiffSynth-Studio 近期为混元 Video 模型提供了更高效的显存管理的支持,目前已支持使用24G显存进行无任何质量损失的视频生成,并在极致情况下,用低至 6G 的显存运行混元 Video 模型!

1077 13
来自: 计算机视觉  版块
|
12月前
|
人工智能 自然语言处理 Java
|

FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel

FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。

2769 65
来自: 自然语言处理  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14531
内容
6
活动
3801
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互