这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent
本节我们将理论付诸实践,利用 LlamaIndex 的 ReAct 框架和 Qwen3 模型,手搓一个全自动的博客监控 Agent。通过为大模型接入 RSS 读取、邮件与微信发送等外部工具,让它从‘聊天机器人’进化为‘能干活的数字员工’。
用 4B 小模型做Code Agent的SubAgent?这个开源项目做到了
LocoOperator-4B 是 LocoreMind 推出的 4B 开源蒸馏模型,专为代码库探索优化:本地运行、零 API 成本,结构化工具调用(Read/Grep/Glob/Bash 等)准确率达 100%。它替代 Code Agent 中的子智能体,显著降本增效。(239 字)
深度揭秘 ooderAgent MIT 开源框架
在人工智能技术快速发展的今天,AI Agent系统已成为实现复杂任务协作的重要架构。ooderAgent(全称ooder SuperAgent)作为一套基于MIT协议的开源企业级AI能力分发与自动化协作框架,通过创新的Agent架构和SKILL管理机制,为企业提供了从简单任务到复杂流程的全场景自动化解决方案。该框架由ooder团队开发,采用SpringCloud分布式架构,于2026年1月发布最新版本v0.6.2,目前已在企业级AI应用领域展现出重要的技术价值。 本研究旨在全面剖析ooderAgent框架的技术特点与技术价值,重点关注其在技术架构设计、应用能力边界、技术创新突破以及商业价值创造
Python 高效学习指南:从入门到全场景的科学路径
Python学习应避免贪多求全,遵循“筑基→深化→定向→实战”四阶段路径:先掌握核心语法与编程思维,再深入面向对象与代码质量,随后聚焦Web、数据或自动化方向,最后通过项目整合技能。强调实践闭环与工程化思维,助力从入门迈向实用开发。
2.通用权限管理模型
本文介绍了ACL和RBAC两种常见的权限模型。ACL通过直接为用户或角色授权实现控制,简单直观;RBAC则基于角色分配权限,解耦用户与权限关系,更易维护。文中还详解了RBAC0-RBAC3的演进与核心原则,帮助构建系统化权限设计认知。
送给GLM Coding Plan用户和开源社区的“AI手机”
智谱推出“AI手机”新体验,通过Claude Code输入提示词,即可自动部署开源Agent模型AutoGLM。三步操作,轻松拥有专属AI设备,享受技术平权。倡导开源生态与AI协同,推动人人可用的AGI未来。
101_参数高效微调_QLoRA技术深度解析与实践
在大型语言模型(LLM)时代,高效微调成为降低大模型应用门槛的关键技术。随着模型规模的不断扩大,传统的全参数微调方法面临着巨大的计算资源消耗和内存需求挑战。QLoRA(Quantized Low-Rank Adaptation)作为一种创新的参数高效微调技术,以其独特的量化+低秩适应双重策略,成功地在大幅降低资源消耗的同时保持了接近全精度微调的性能。本文将深入剖析QLoRA的技术原理、实现细节、性能特点,并提供丰富的实践案例,帮助读者全面掌握这一2025年仍然广泛应用的高效微调方法。
122_集群管理:Slurm配置 - 优化大规模训练调度
在2025年,大规模语言模型(LLM)的训练已经进入到超大规模时代,模型参数量达到数千亿甚至万亿级别,训练过程需要动用数百甚至数千个GPU/TPU。在这种情况下,高效的集群管理系统成为训练成功的关键基础设施。Slurm(Simple Linux Utility for Resource Management)作为目前最流行的开源作业调度系统,广泛应用于科研机构和大型科技公司的超级计算集群中。
50_选择模型:开源vs闭源
在大型语言模型(LLM)技术快速发展的今天,企业和开发者面临着一个关键决策:是选择开源LLM模型还是闭源LLM服务?这个选择直接影响到项目的成本结构、开发灵活性、数据安全性以及长期战略规划。随着2025年LLM技术的进一步成熟,开源与闭源模型之间的竞争格局也发生了显著变化。
89_批量推理:异步API调用
在当今数据密集型应用和大模型部署的时代,批量推理已成为提升系统性能和资源利用率的关键技术。随着深度学习模型规模的不断扩大和应用场景的日益复杂,如何高效地处理大量推理请求成为技术团队面临的重要挑战。传统的同步API调用方式在面对高并发、大规模数据处理时,往往会遇到响应延迟高、资源利用不充分等问题。异步API调用作为一种更高效的处理模式,通过非阻塞操作和并发处理能力,为批量推理场景提供了理想的解决方案。
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
D2大会 界面即推理:解读 Google A2UI 如何探索 Agent 交互新标准
Google A2UI开源项目,以声明式JSON协议让AI按需生成安全、跨平台的动态界面,破解Agent交互“最后一公里”难题。D2大会将揭秘其设计哲学、多智能体UI协作及开源路线图。
Java 学习资源精选:从入门到精通的高效资源清单
本文为Java学习者提供从入门到精通的完整资源指南,涵盖各阶段所需视频、书籍、博客、项目及社区推荐。强调结合理论与实践,精选优质资源,帮助初学者摆脱“资源焦虑”,高效掌握Java核心知识与开发技能,稳步提升编程能力。
1.RememberMe简介及用法
RememberMe是一种服务器端会话保持机制,用户勾选后关闭浏览器再打开无需重新登录。其通过Cookie存储令牌实现自动认证,避免频繁输入账号密码,提升用户体验,同时需注意安全风险与优化策略。
SpringCloud概述
Spring Cloud是微服务一站式解决方案,具备注约大于配置、组件丰富、开箱即用等特点。其版本以地铁站命名,避免与子项目冲突。Spring Cloud Alibaba融合Nacos、Sentinel、Seata等阿里开源组件,提供更完整、经生产验证的微服务生态,成为当前主流技术选型。
PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末推荐大模型微调神器!
大模型如何更懂人类?关键在于“对齐”。PPO、DPO、KTO是三大主流对齐方法:PPO效果强但复杂,DPO平衡高效,KTO低成本易上手。不同团队可根据资源选择路径。LLaMA-Factory Online让微调像浏览器操作一样简单,助力人人皆可训练专属模型。
UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式
通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
119_LLM训练的高效内存管理与优化技术:从ZeRO到Flash Attention
大型语言模型(LLM)的训练面临着前所未有的计算和内存挑战。随着模型规模达到数百亿甚至数千亿参数,高效的内存管理成为训练成功的关键因素之一。2025年,LLM训练的内存优化技术已经取得了显著进展,从ZeRO优化器到Flash Attention等创新技术,为训练超大规模模型提供了可能。
82_Chain-of-Thought:推理步骤拆解
在大语言模型(LLM)的发展历程中,推理能力一直是衡量模型智能水平的关键指标。尽管模型规模的扩大带来了知识覆盖和语言理解能力的显著提升,但在解决复杂推理问题时,单纯增加参数数量并不总能带来预期的性能提升。2022年,Jason Wei等人提出了一项革命性技术——Chain-of-Thought提示(CoT),这项技术通过引导模型生成中间推理步骤,显著增强了LLM在多步推理任务上的表现。
黑森林开源Flux.1 Krea Dev!魔搭AIGC专区Day1支持,提供生图与训练定制
FLUX模型又又又更新了! 黑森林联合Krea发布了文生图模型Flux.1 Krea Dev,这是目前最好的开源文生图模型。 魔搭社区第一时间上线Flux.1 Krea Dev,快来AIGC专区抢先体验图片
手把手基于ModelScope MCP协议实现AI短视频创作:零代码自动化工作流
本文介绍了基于ModelScope MCP协议的AI视频生成解决方案,涵盖核心机制解析、零代码工作流搭建、性能优化策略及全链路异常处理。通过统一上下文描述符抽象异构AI服务,实现图像生成、语音合成与视频剪辑的自动化编排。结合缓存优化与错误重试机制,大幅提升生成效率(如5分镜视频从91.7s降至22.4s)。最后展示《夏日海滩》生成案例,并探讨个性化风格迁移与商业场景集成等进阶方向,揭示零代码本质为服务、流程与资源的三层抽象。
"老师,你讲的我都懂,但下次还是不会用"——一套让课程设计真正落地的AI指令
分享一套课程设计AI指令,能将DeepSeek/Kimi变成教学设计顾问,帮助教师和培训师快速构建目标明确、结构合理的专业课程方案。从"讲得好"跨越到"教得好",让学习真正发生。
Ribbon负载均衡
本节深入讲解Ribbon实现客户端负载均衡的原理,解析@LoadBalanced注解的作用机制,介绍负载均衡分类、算法及Ribbon自定义策略与饥饿加载优化,帮助读者全面掌握Ribbon在Spring Cloud中的应用与底层逻辑。(238字)
C 语言高效学习:从入门到嵌入式的科学路径
C语言是底层与嵌入式开发的基石。科学学习路径分四阶:入门打基础,深化攻指针内存,实战练项目,进阶接硬件。掌握GCC、GDB、Makefile,拓展至STM32、FreeRTOS与SQLite,实现从语法到工程、从初级到资深的跃迁,筑牢“软件-硬件”桥梁。
Mule Agent Builder:面向下一代 Agent 的全新构建范式
MuleRun推出Mule Agent Builder,首创“Base Agent + Skills + Knowledge”范式,通过自然语言对话即可构建高能力、可推理、会调用工具的AI Agent。它大幅降低开发门槛,实现从创意到变现的一站式闭环,助力创作者轻松打造专属Agent并快速上架盈利。现诚邀共建者参与首批内测,共同定义下一代Agent的构建与商业化未来。
1.认识OAuth2.0
OAuth2.0是一种开放授权协议,允许第三方应用在用户授权下访问其资源,而无需获取用户账号密码。相比传统授权更安全,广泛用于第三方登录、服务间资源共享等场景,支持授权码、简化、密码及客户端四种模式,其中授权码模式最安全,适用于Web应用;简化模式适合无后端的前端应用;密码模式用于高度信任的服务间调用;客户端模式则用于系统间内部通信。Spring Security OAuth2可实现单点登录与服务权限控制。
魔珐星云:免费体验企业级3D AI数字人智能客服!告别枯燥对话框!
魔珐科技携手魔搭社区上线「魔珐星云智能客服Demo」,基于超写实3D数字人技术,打造具身智能交互新体验。通过文生多模态3D大模型,实现语音、表情、动作实时生成,支持Web端低延时互动,百元级芯片即可运行,助力企业构建自然高效的人机对话系统。
Mcore Bridge:迈向Megatron训练"零门槛"时代
魔搭社区推出Mcore-Bridge与Megatron-SWIFT,显著降低大模型训练门槛。支持safetensors格式、一键启动、无需权重转换,兼容MoE等架构,实现高性能与易用性统一,让Megatron训练开箱即用。
59_实时性模型:选择低延迟LLM
在当今快速发展的人工智能领域,大型语言模型(LLM)的应用正迅速渗透到各个行业。随着企业对AI响应速度的要求不断提高,低延迟LLM的选择与优化已成为技术团队面临的关键挑战。实时聊天机器人、智能客服、自动驾驶辅助系统等场景对响应时间提出了极高的要求,毫秒级的延迟差异可能直接影响用户体验和业务效率。2025年,随着推理优化技术的突破性进展,低延迟LLM已不再是难以企及的目标,而是成为实际生产环境中的标准配置。
Tongyi DeepResearch的技术报告探秘
引言阿里通义实验室悄悄(其实动静不小)发布了一个叫 Tongyi DeepResearch 的 Agent 项目。它没有开发布会,没请明星站台,甚至没发通稿——但它在 GitHub 上架当天,就登顶了“每日趋势榜”。这速度,比人类发现…
Qwen3 X ModelScope工具链: 飞速训练 + 全面评测
Qwen于近日发布了Qwen3系列模型,包含了各个不同规格的Dense模型和MoE模型。开源版本中,Dense模型基本沿用了之前的模型结构,差别之处在于对于Q和K两个tensor增加了RMSNorm;MoE模型去掉了公共Expert,其他结构基本与前一致。在模型大小上,涵盖了从0.6B到32B(Dense)和235B(MoE)不同的尺寸。
重塑虚实边界:智元机器人发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0
智元机器人发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0,基于NVIDIA Isaac Sim,实现高保真数字孪生环境,支持自然语言生成万级场景,分钟级构建与泛化。平台开源上万小时真实机器人作业数据集,覆盖200+任务,构建10万+场景评估体系,推动具身智能从研发到落地的全链路创新,助力开发者零硬件部署、高效训练与评测。
MiniMax M2.1开源:多语言编程SOTA,为真实世界复杂任务而生
MiniMax正式开源M2.1模型,全面提升多语言编程、办公自动化与原生App开发能力,支持WebDev、3D渲染、Agent工具链等复杂任务,性能媲美Claude Opus,免费开放体验。
ModelScope魔搭社区发布月报 -- 25年11月
魔搭ModelScope三周年庆!见证开源大模型从追赶到领跑,11月硬核更新不断:Qwen3-VL、MiniMax-M2等新模态齐发,AIGC生态爆发,OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会,不见不散!
129_量化技术:INT8与动态量化 - 推导压缩的精度损失公式
在2025年的大语言模型(LLM)时代,随着模型规模的指数级增长,部署这些庞然大物变得越来越具有挑战性。GPT-5和Claude 3等最新模型的参数量已经达到数千亿甚至上万亿,这给计算资源和内存带来了巨大压力。模型量化作为一种有效的压缩技术,正在成为解决这一挑战的关键方案。本文将深入探讨LLM量化技术,特别是INT8和动态量化方法,推导其精度损失公式,并提供2025年最新的优化策略和实现代码。
告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?
TL;DR:很多 AI Agent 被困在受限且一刀切的沙箱内,而 MuleRun 是全球首个通过提供可完全自定义且持久化的 Agent Runtime 来解决这一问题的平台——即你可以定义操作系统、访问原生软件、跨会话保留状态并分配硬件资源。这让你能打造真正的“数字化工人”,而不仅仅是受限的聊天机器人。
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
B站开源SOTA动画视频生成模型 Index-AniSora!
B站升级动画视频生成模型Index-AniSora技术并开源,支持番剧、国创、漫改动画、VTuber、动画PV、鬼畜动画等多种二次元风格视频镜头一键生成!
魔搭社区大模型一键部署到阿里云边缘云(ENS)
随着大模型技术的快速发展,业界的关注点正逐步从模型训练往模型推理 转变。这一转变不仅反映了大模型在实际业务中的广泛应用需求,也体现了技术优化和工程化落地的趋势。