|
机器学习/深度学习 人工智能 算法
|

基于强化学习的专家优化系统

基于强化学习的专家优化系统

1345 24
|
机器学习/深度学习 人工智能 自然语言处理
|

Baichuan-Omni-1.5:百川智能开源全模态理解与生成模型,支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出,显著提升多模态交互体验。

985 22
来自: 多模态  版块
|
机器学习/深度学习 人工智能 监控
|

DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化

DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。

990 27
来自: 计算机视觉  版块
|
人工智能 自然语言处理 语音技术
|

FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

3085 13
来自: 多模态  版块
|
人工智能 自然语言处理 达摩院
|

VideoLLaMA3:阿里达摩院开源专注于视觉理解的多模态基础模型,具备多语言视频理解能力

VideoLLaMA3 是阿里巴巴开源的多模态基础模型,专注于图像和视频理解,支持多语言生成、视频内容分析和视觉问答任务,适用于多种应用场景。

1036 6
来自: 多模态  版块
|
人工智能 开发者 Python
|

Chainlit:一个开源的异步Python框架,快速构建生产级对话式 AI 应用

Chainlit 是一个开源的异步 Python 框架,帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用,支持多种工具和服务集成。

1541 9
来自: 自然语言处理  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

Baichuan-M1-14B:AI 助力医疗推理,为患者提供专业的建议!百川智能开源业内首个医疗增强大模型,普及医学的新渠道!

Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型,专为医疗场景优化,支持多语言、快速推理,具备强大的医疗推理能力和通用能力。

949 17
来自: 自然语言处理  版块
|
人工智能 测试技术 定位技术
|

Tarsier2:字节跳动开源专注于图像和视频内容理解的视觉语言大模型

Tarsier2 是字节跳动推出的大规模视觉语言模型,支持高质量视频描述、问答与定位,在多个视频理解任务中表现优异。

985 16
来自: 计算机视觉  版块
|
人工智能 自然语言处理 JavaScript
|

微软开源课程!21节课程教你开发生成式 AI 应用所需了解的一切

微软推出的生成式 AI 入门课程,涵盖 21 节课程,帮助开发者快速掌握生成式 AI 应用开发,支持 Python 和 TypeScript 代码示例。

1097 15
来自: 自然语言处理  版块
|
人工智能 自然语言处理 API
|

用自然语言控制电脑,字节跳动开源 UI-TARS 的桌面版应用!内附详细的安装和配置教程

UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用,支持通过自然语言控制电脑操作,提供跨平台支持、实时反馈和精准的鼠标键盘控制。

4538 17
来自: 多模态  版块
|
人工智能 自然语言处理 API
|

UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。

3343 16
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 搜索推荐
|

PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络

PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。

948 15
来自: 自然语言处理  版块
|
机器学习/深度学习 人工智能 运维
|

CodeFuse团队2024年10篇论文总结

CodeFuse 是蚂蚁集团开发的多语言代码大型语言模型(LLM),基于海量高质量代码数据和多任务微调技术,已在内部研发人员的编码、测试、运维等场景中广泛应用。2024年,CodeFuse 在国际顶会如ICSE、ICDE、KDD等发表多篇论文,涵盖CodeLLM、机器学习、AI等领域,并开源多个自研大模型,总下载量近200万。项目持续迭代,欢迎贡献和建议。

607 11
|
人工智能 测试技术 Python
|

VideoChat-Flash:上海AI Lab开源高效处理超长视频的多模态大模型

VideoChat-Flash 是上海人工智能实验室等机构推出的多模态大模型,通过分层压缩技术高效处理长视频,支持长达数小时的视频输入,推理速度提升5-10倍。

493 1
来自: 多模态  版块
|
人工智能 Python
|

子曰-o1:网易有道开源国内首个分步式讲解推理模型,支持K12数学教学

子曰-o1是网易有道推出的国内首个分步式讲解推理模型,采用14B轻量级架构,专为消费级显卡设计,支持K12数学教学,提供精准的解题思路和答案。

668 1
来自: 自然语言处理  版块
|
人工智能 自然语言处理 测试技术
|

WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具

WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。

609 1
来自: 自然语言处理  版块
|
人工智能 编解码 算法
|

Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。

2347 2
来自: 多模态  版块
|
文字识别
|

统一多模态Embedding, 通义实验室开源GME系列模型

随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。

2767 6
|
机器学习/深度学习 自然语言处理
|

Deepseek开源R1系列模型,纯RL助力推理能力大跃升!

近期Deepseek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。

3037 25
|
数据采集 人工智能 自然语言处理
|

OpenCSG开源SmolTalk Chinese数据集

近年来,人工智能(AI)领域尤其是自然语言处理(NLP)技术的迅猛发展,正在深刻改变着各行各业的运作模式。从智能客服到内容生成,从自动翻译到智能搜索,NLP技术的广泛应用使得语言模型在全球范围内的重要性日益凸显。与此密切相关的预训练模型(Pre-trained Models),凭借在海量数据上的训练积累了丰富的知识,成为NLP技术进步的核心支柱。然而,预训练模型的成功在很大程度上依赖于其背后数据集的质量。

342 13
|
机器学习/深度学习 人工智能 自然语言处理
|

DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调

DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。

1249 21
来自: 自然语言处理  版块
|
传感器 人工智能
|

X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架

X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。

368 6
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板

VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。

1325 8
来自: 计算机视觉  版块
|
存储 人工智能 自然语言处理
|

OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程

OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。

807 12
来自: 自然语言处理  版块
|
机器学习/深度学习 人工智能 文字识别
|

Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。

1357 4
来自: 多模态  版块
|
人工智能 自然语言处理 API
|

百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。

3892 5
来自: 语音  版块
|
人工智能 文字识别 API
|

moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。

1861 6
来自: 多模态  版块
|
数据采集 人工智能 异构计算
|

Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元

Sky-T1是NovaSky发布的开源推理AI模型,支持低成本训练,性能优异,适用于数学问题解决、编程评估和科学研究。

641 3
来自: 自然语言处理  版块
|
人工智能 自然语言处理 搜索推荐
|

GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互

GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。

669 4
来自: 多模态  版块
|
人工智能 编解码
|

CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。

1230 5
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 并行计算
|

Titans:谷歌新型神经记忆架构,突破 Transformer 长序列处理的瓶颈

Titans 是谷歌推出的新型神经网络架构,通过神经长期记忆模块突破 Transformer 在处理长序列数据时的瓶颈,支持并行计算,显著提升训练效率。

553 5
来自: 自然语言处理  版块
|
人工智能 自然语言处理 并行计算
|

Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格

Kokoro-TTS 是一款轻量级文本转语音模型,支持多语言和多语音风格生成,具备实时处理能力和低资源占用,适用于多种应用场景。

2185 5
来自: 语音  版块
|
人工智能 vr&ar
|

PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型

PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。

1861 4
来自: 计算机视觉  版块
|
人工智能 编解码 自然语言处理
|

CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。

565 6
来自: 计算机视觉  版块

MFTCoder 重磅升级v0.5.0发布,支持SST加训与DPO

CodeFuse于2023年9月开源了多任务微调框架MFTCoder,支持多个任务并行微调,解决数据量不平衡等问题。具备高效训练、PEFT微调等特性,支持多种主流LLMs。最新v0.5.0版本新增DPO、SST加训等功能,代码已开源至GitHub,欢迎试用和贡献。

256 1
|
自然语言处理 机器人 开发者
|

大模型的综合分析报告

- **性能**:所提及的模型在性能上均表现出色,特别是在语言生成和理解方面。参数规模较大的模型(如DeepSeek-LLM-67B-Chat、Yi-1.5-9B-Chat等)通常能提供更为丰富的语言处理能力。 - **显存**:显存需求因模型参数规模而异,但一般较大规模的模型需要较高配置的硬件支持。 - **生态**:Llama、GLM等模型在开源社区中较为受欢迎,拥有一定的用户基础和生态支持。其他模型可能处于发展初期,生态支持有待加强。 - **更新频率和时间**:具体更新频率可能因开发者团队和模型版本而异。但一般而言,开源模型可能会不断更新以改进性能和功能。 - **效果评估**:在对话

477 3
|
JSON 测试技术 语音技术
|

VITA-1.5: 迈向GPT-4o级实时视频-语音交互

近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。

693 66
|
测试技术
|

通义千问团队开源全新的过程奖励模型PRM!

近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。

1219 14
|
人工智能 自然语言处理 算法
|

OpenCSG开源最大中文合成数据集Chinese Cosmopedia

近年来,生成式语言模型(GLM)的飞速发展正在重塑人工智能领域,尤其是在自然语言处理、内容创作和智能客服等领域展现出巨大潜力。

333 15
|
数据采集 人工智能 自然语言处理
|

魔搭社区每周速递(1.5-1.18)

🙋魔搭ModelScope本期社区进展:新增3239个模型,711个数据集,192个创新应用, 16篇内容

681 11
|
存储 IDE 开发工具
|

ModelScope魔搭25年1月版本发布月报

随着2025年帷幕的缓缓拉开,ModelScope团队怀着新年新气象的美好期许,为广大开发者带来了1月份的重磅更新。

583 13
|
人工智能 监控 安全
|

设计:智能医疗设备管理系统——AI医疗守护者

该系统将结合人工智能技术与区块链技术,实现对医疗设备的智能化管理。目标是提高医疗设备的管理效率,确保医疗设备的数据安全,优化医疗资源的配置,提升医疗服务质量。

993 5
|
人工智能 计算机视觉 开发者
|

SmartEraser:中科大推出图像对象移除技术,轻松移除照片中的不想要元素,保留完美瞬间

SmartEraser 是由中科大与微软亚洲研究院联合开发的图像编辑技术,能够精准移除图像中的指定对象,同时保留周围环境的细节和结构,适用于复杂场景的图像处理。

394 8
来自: 计算机视觉  版块
|
Web App开发 人工智能 JSON
|

AutoMouser:AI Chrome扩展程序,实时跟踪用户的浏览器操作,自动生成自动化操作脚本

AutoMouser是一款Chrome扩展程序,能够实时跟踪用户交互行为,并基于OpenAI的GPT模型自动生成Selenium测试代码,简化自动化测试流程。

948 17
来自: 多模态  版块
|
人工智能 达摩院 计算机视觉
|

SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术

SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。

553 9
来自: 计算机视觉  版块
|
机器学习/深度学习 人工智能 测试技术
|

ParGo:字节与中山大学联合推出的多模态大模型连接器,高效对齐视觉与语言模态

ParGo 是字节与中山大学联合推出的多模态大模型连接器,通过全局与局部视角联合,提升视觉与语言模态的对齐效果,支持高效连接、细节感知与自监督学习。

309 6
来自: 多模态  版块
|
Web App开发 机器学习/深度学习 人工智能
|

Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音

Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。

1233 17
来自: 语音  版块
|
人工智能 算法 前端开发
|

OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备

OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。

1102 72
来自: 多模态  版块
|
机器学习/深度学习 人工智能 监控
|

Uni-AdaFocus:清华大学开源高效视频理解框架,根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架,通过自适应聚焦机制动态调整计算资源分配,显著提升视频处理效率。

218 6
来自: 多模态  版块
|
人工智能 编解码 测试技术
|

Mini-InternVL:轻量级多模态大模型,4B 参数量媲美 InternVL2-76B

Mini-InternVL 是上海AI Lab联合清华等机构推出的轻量级多模态大模型,支持高效推理、跨领域适应和动态分辨率输入,适用于多种场景。

979 12
来自: 多模态  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉答疑群:44837352

0
今日
15090
内容
6
活动
3970
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互