|
10月前
|
存储 人工智能 JSON
|

Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3

Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。

2328 16
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 存储 人工智能
|

MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。

7998 80
来自: 多模态  版块
|
10月前
|
人工智能 自然语言处理 API
|

OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告

OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。

701 18
来自: 自然语言处理  版块
|
10月前
|
人工智能 编解码 文字识别
|

OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

1143 17
来自: 多模态  版块
|
10月前
|
API 开发工具 Python
|

阿里云PAI部署DeepSeek及调用

本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。

3709 11
|
10月前
|
人工智能 搜索推荐 API
|

node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体

node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。

1130 27
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 搜索推荐
|

浙大通义联手推出慢思考长文本生成框架OmniThink,让AI写作突破知识边界

随着大模型(LLMs)的发展,AI 写作取得了较大进展。然而,现有的方法大多依赖检索知识增强生成(RAG)和角色扮演等技术,其在信息的深度挖掘方面仍存在不足,较难突破已有知识边界,导致生成的内容缺乏深度和原创性。

546 46
|
10月前
|
自然语言处理 安全 搜索推荐
|

阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结

在数字化时代,新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战,阿里巴巴通义实验室与上海交通大学的中断者提出了一种基于Agent的新闻时间线摘要新框架——CH RONOS,源自希腊神话中的时间之神柯罗诺斯,该框架通过迭代多轮的自我提问方式,结合检索增强生成技术,从互联网上检索相关事件信息,并生成时间顺序的新闻摘要,为新闻时间线摘要生成提供了一种全新的解决方案。

535 44
|
10月前
|
机器学习/深度学习 并行计算 API
|

Qwen2.5-1M: 支持100万Tokens上下文的开源Qwen模型

两个月前,Qwen团队升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。今天,Qwen正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。

2117 28
|
10月前
|
JSON 文字识别 测试技术
|

Qwen2.5-VL Cookbook来啦!手把手教你怎么用好视觉理解模型!

今天,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。

3080 22
|
10月前
|
人工智能
|

春节来司南大模型对战竞技场,pick你的专属大模型搭档

春节的脚步渐近,街头巷尾已经开始洋溢着浓浓的节日气氛,准备迎接新年的到来。怎么书写创意拉满的春联?年夜饭怎么规划才完美?什么样的祝福更有新意?家庭聚会、出游如何安排?

208 10
|
10月前
|
存储 机器学习/深度学习
|

MustDrop:多阶段去除冗余视觉token,提升多模态大模型推理效率

本文提出了一种高效的多模态大模型,多阶段去除冗余视觉token——MustDrop。多模态大模型中的视觉tokens通常表现出显著的空间和时间冗余,并且大模型的大部分输入令牌是视觉tokens,这极大程度上影响了多模态大模型推理效率。

607 11
|
10月前
|
人工智能 搜索推荐 Docker
|

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手

DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手

6508 119
来自: 自然语言处理  版块
|
10月前
|
人工智能 物联网 开发者
|

Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台

Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。

1056 43
来自: 多模态  版块
|
10月前
|
人工智能 测试技术
|

VARGPT:将视觉理解与生成统一在一个模型中,北大推出支持混合模态输入与输出的多模态统一模型

VARGPT是北京大学推出的多模态大语言模型,专注于视觉理解和生成任务,支持混合模态输入和高质量图像生成。

331 22
来自: 多模态  版块
|
10月前
|
人工智能 编解码 语音技术
|

SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。

2340 21
来自: 语音  版块
|
10月前
|
机器学习/深度学习 人工智能 算法
|

o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度

OpenAI o3-mini是OpenAI推出的全新推理模型,专为科学、数学和编程等技术领域优化,支持三种推理强度,灵活调整性能。

636 25
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 人工智能 API
|

Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术

介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。

434 28
来自: 自然语言处理  版块
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格

YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。

1792 23
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 计算机视觉
|

Janus-Pro:DeepSeek 开源的多模态模型,支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型,支持图像理解和生成,提供1B和7B两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。

2388 20
来自: 多模态  版块
|
11月前
|
人工智能 编解码 JSON
|

Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。

5257 18
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 算法
|

基于强化学习的专家优化系统

基于强化学习的专家优化系统

1153 24
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出,显著提升多模态交互体验。

849 22
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 监控
|

DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化

DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。

796 27
来自: 计算机视觉  版块
|
11月前
|
人工智能 自然语言处理 语音技术
|

FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

2898 13
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 达摩院
|

VideoLLaMA3:阿里达摩院开源专注于视觉理解的多模态基础模型,具备多语言视频理解能力

VideoLLaMA3 是阿里巴巴开源的多模态基础模型,专注于图像和视频理解,支持多语言生成、视频内容分析和视觉问答任务,适用于多种应用场景。

820 6
来自: 多模态  版块
|
11月前
|
人工智能 开发者 Python
|

Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用

Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。

1191 9
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!

Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。

795 17
来自: 自然语言处理  版块
|
11月前
|
人工智能 测试技术 定位技术
|

Tarsier2:字节跳动开源专注于图像和视频内容理解的视觉语言大模型

Tarsier2 是字节跳动推出的大规模视觉语言模型,支持高质量视频描述、问答与定位,在多个视频理解任务中表现优异。

810 16
来自: 计算机视觉  版块
|
11月前
|
人工智能 自然语言处理 JavaScript
|

微软开源课程!21节课程教你开发生成式 AI 应用所需了解的一切

微软推出的生成式 AI 入门课程,涵盖 21 节课程,帮助开发者快速掌握生成式 AI 应用开发,支持 Python 和 TypeScript 代码示例。

1021 15
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 API
|

用自然语言控制电脑,字节跳动开源 UI-TARS 的桌面版应用!内附详细的安装和配置教程

UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用,支持通过自然语言控制电脑操作,提供跨平台支持、实时反馈和精准的鼠标键盘控制。

3189 17
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 API
|

UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。

2860 16
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 搜索推荐
|

PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络

PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。

804 15
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 运维
|

CodeFuse团队2024年10篇论文总结

CodeFuse 是蚂蚁集团开发的多语言代码大型语言模型(LLM),基于海量高质量代码数据和多任务微调技术,已在内部研发人员的编码、测试、运维等场景中广泛应用。2024年,CodeFuse 在国际顶会如ICSE、ICDE、KDD等发表多篇论文,涵盖CodeLLM、机器学习、AI等领域,并开源多个自研大模型,总下载量近200万。项目持续迭代,欢迎贡献和建议。

491 11
|
11月前
|
人工智能 测试技术 Python
|

VideoChat-Flash:上海AI Lab开源高效处理超长视频的多模态大模型

VideoChat-Flash 是上海人工智能实验室等机构推出的多模态大模型,通过分层压缩技术高效处理长视频,支持长达数小时的视频输入,推理速度提升5-10倍。

442 1
来自: 多模态  版块
|
11月前
|
人工智能 Python
|

子曰-o1:网易有道开源国内首个分步式讲解推理模型,支持K12数学教学

子曰-o1是网易有道推出的国内首个分步式讲解推理模型,采用14B轻量级架构,专为消费级显卡设计,支持K12数学教学,提供精准的解题思路和答案。

587 1
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 测试技术
|

WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具

WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。

530 1
来自: 自然语言处理  版块
|
11月前
|
人工智能 编解码 算法
|

Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。

1968 2
来自: 多模态  版块
|
11月前
|
文字识别
|

统一多模态Embedding, 通义实验室开源GME系列模型

随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。

2305 6
|
11月前
|
机器学习/深度学习 自然语言处理
|

Deepseek开源R1系列模型,纯RL助力推理能力大跃升!

近期Deepseek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。

2928 25
|
11月前
|
数据采集 人工智能 自然语言处理
|

OpenCSG开源SmolTalk Chinese数据集

近年来,人工智能(AI)领域尤其是自然语言处理(NLP)技术的迅猛发展,正在深刻改变着各行各业的运作模式。从智能客服到内容生成,从自动翻译到智能搜索,NLP技术的广泛应用使得语言模型在全球范围内的重要性日益凸显。与此密切相关的预训练模型(Pre-trained Models),凭借在海量数据上的训练积累了丰富的知识,成为NLP技术进步的核心支柱。然而,预训练模型的成功在很大程度上依赖于其背后数据集的质量。

272 13
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调

DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。

1135 21
来自: 自然语言处理  版块
|
11月前
|
传感器 人工智能
|

X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架

X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。

279 6
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板

VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。

1121 8
来自: 计算机视觉  版块
|
11月前
|
存储 人工智能 自然语言处理
|

OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程

OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。

719 12
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 文字识别
|

Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。

1108 4
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 API
|

百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。

3464 5
来自: 语音  版块
|
11月前
|
人工智能 文字识别 API
|

moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。

1550 6
来自: 多模态  版块
|
11月前
|
数据采集 人工智能 异构计算
|

Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元

Sky-T1是NovaSky发布的开源推理AI模型,支持低成本训练,性能优异,适用于数学问题解决、编程评估和科学研究。

546 3
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 搜索推荐
|

GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互

GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。

552 4
来自: 多模态  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14531
内容
6
活动
3801
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互