AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。
Baichuan-Audio:端到端音频大模型,实时双语对话+语音生成
Baichuan-Audio 是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现高质量、可控的实时中英双语对话。
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。
87%的案例学习都停留在"看热闹"——用这套AI指令把案例变成你的决策资产
87%的案例学习只停留在看热闹。分享一套案例分析AI指令,通过结构化分析框架,帮你从案例中提炼可迁移的决策模型,提升学习效率。
网上管家婆客服部被AI“抢活”了!实测百宝箱智能体的提效魔法
网上管家婆联合蚂蚁百宝箱推出AI智能客服与语音转写智能体,实现售后咨询秒级响应、销售录音自动分析,大幅提升效率。智能体嵌入现有系统,零代码操作,助力客服摆脱重复劳动,聚焦高价值服务,真正实现人机协同提效。
深度揭秘 ooderAgent MIT 开源框架
在人工智能技术快速发展的今天,AI Agent系统已成为实现复杂任务协作的重要架构。ooderAgent(全称ooder SuperAgent)作为一套基于MIT协议的开源企业级AI能力分发与自动化协作框架,通过创新的Agent架构和SKILL管理机制,为企业提供了从简单任务到复杂流程的全场景自动化解决方案。该框架由ooder团队开发,采用SpringCloud分布式架构,于2026年1月发布最新版本v0.6.2,目前已在企业级AI应用领域展现出重要的技术价值。 本研究旨在全面剖析ooderAgent框架的技术特点与技术价值,重点关注其在技术架构设计、应用能力边界、技术创新突破以及商业价值创造
去年我用一张Excel表"规划"学习,结果把自己逼进了ICU——直到我学会让AI帮我排兵布阵
本文以作者因"完美计划表"累倒入院的亲身经历切入,分享了一套让AI担任私人学习规划师的完整指令模板。通过"目标拆解""遗忘曲线复习""弹性时间"三大机制,解决目标模糊、复习逃避、计划崩溃等常见学习痛点,并提供上班族、学生、转行者三种典型场景的实战案例。
送给GLM Coding Plan用户和开源社区的“AI手机”
智谱推出“AI手机”新体验,通过Claude Code输入提示词,即可自动部署开源Agent模型AutoGLM。三步操作,轻松拥有专属AI设备,享受技术平权。倡导开源生态与AI协同,推动人人可用的AGI未来。
50_选择模型:开源vs闭源
在大型语言模型(LLM)技术快速发展的今天,企业和开发者面临着一个关键决策:是选择开源LLM模型还是闭源LLM服务?这个选择直接影响到项目的成本结构、开发灵活性、数据安全性以及长期战略规划。随着2025年LLM技术的进一步成熟,开源与闭源模型之间的竞争格局也发生了显著变化。
71_数据版本控制:Git与DVC在LLM开发中的最佳实践
在2025年的大模型(LLM)开发实践中,数据和模型的版本控制已成为确保项目可重复性和团队协作效率的关键环节。与传统软件开发不同,LLM项目面临着独特的数据版本控制挑战:
Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!
Cooragent 是清华大学 LeapLab 团队推出的开源 AI Agent 协作框架,支持基于简单描述快速创建 Agent 并实现多 Agent 协作,具备 Prompt-Free 设计和本地部署能力。
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
榜单不盲从:用 EvalScope 打造你的专属场景评测
本文介绍如何通过EvalScope构建自定义评测指数,突破通用榜单局限,结合业务需求定义权重,实现模型在真实场景中的价值评估,助力选出真正适配业务的“最佳模型”。
Python 为何能稳居全场景开发主流语言宝座
Python凭借简洁语法、丰富生态、跨平台兼容及社区与企业双重推动,成为覆盖Web开发、数据分析、人工智能等全场景的“万能钥匙”,兼具低门槛与高效率,稳居编程语言主流地位。
Java开发进阶:从初级工程师到架构师的能力提升路径
本文系统梳理Java开发者从初级工程师到架构师的成长路径,涵盖各阶段技术能力要求与提升方向,强调基础夯实、架构设计、业务理解及软实力培养,为职业进阶提供清晰指引。
智谱开源GLM-ASR:动动嘴,活就干了
智谱发布并开源GLM-ASR系列语音识别模型,推出桌面端AI输入法。包含云端旗舰模型GLM-ASR-2512与端侧轻量版GLM-ASR-Nano-2512(仅1.5B参数),实现高精度、低延迟、强隐私保护的语音转写。输入法集成大模型能力,支持语音指令、翻译、改写、人设切换、Vibe Coding等功能,让用户“动嘴干活”,提升办公效率。现已免费开放体验。
Gemini 3 Nano Banana 的MCP服务器开发设计和 国内直连方案
基于Gemini 3 API开发的MCP绘图工具,支持在Coding客户端中边写代码边生成流程图。项目采用Python实现,兼容Gemini 2.5 Flash与3 Pro图像API,集成超时控制、国内直连路由转发功能,可高效调用AI生图。提供完整GitHub开源代码及在线试用地址,欢迎提交Issue交流。
新的LLM交互模式!大模型终于能自己生成交互式 UI 了
Google Research推出的Generative UI,让大模型不仅能生成内容,还能一键创建含地图、图表、小游戏等交互功能的完整网页。告别“文字墙”,迈向“内容即应用”的新时代,82.8%用户偏爱此创新体验。
腾讯混元 HunyuanVideo 1.5 开源!
腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。
腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻
腾讯混元与清华推出Bee项目,首创“以数据为中心”的全栈开源方案,通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型,显著提升全开源多模态大模型性能,缩小与闭源模型差距。
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
ms-swift 微调 internlm3-8b-instruct(论文分类任务)
本文介绍了使用InternLM系列模型进行论文分类任务的微调全过程,包括环境配置、数据准备、预训练与SFT(监督微调)、权重合并、模型评测及上传至魔搭社区等步骤。使用ms-swift框架和Lora训练方法,在具备40GB显存的A100 GPU环境下完成训练,并通过Swift工具进行效果评估。
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列,具备物理常识理解和具身推理能力,支持视频输入和长链思考,可应用于机器人、自动驾驶等场景。
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。
JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型
随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。
Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表
Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
OoderAgent P2P 核心技术揭秘:多 Agent 协作入网架构与全链路安全
ooderAgent是基于MIT协议的开源AI协作框架,采用无中心P2P架构,通过MCP/Route/End三类Agent实现分布式存储与协同。文档详述其自组织拓扑、多Agent入网机制及涵盖身份认证、端到端加密、CAP快速重连的全链路安全体系,并覆盖家庭、企业、教育三大场景实践方案。(239字)
杭州速车携手蚂蚁百宝箱,快速抢滩文旅AI新市场
杭州速车科技依托蚂蚁百宝箱,打造“福小厝”等9个文旅智能体,实现从技术服务商向“AI+场景”转型。通过低代码平台快速交付,覆盖导览、打卡、营销等场景,服务超10万用户,助力景区提升体验与消费转化。
告别高成本定制:友盟U-AgentBox上线,开发者可一键集成行业模板,3天打造专属企业Agent
12月29日,蚂蚁百宝箱与友盟联合推出面向开发者的智能体产品U-AgentBox,聚焦低门槛、高效率集成专属智能体。通过模板化构建、可视化编辑与轻量级部署,助力开发者快速实现业务智能化升级。
Java开发进阶:从初级工程师到架构师的能力提升路径
Java开发者从初级到架构师需经历技术与软实力的全面提升。本文梳理各阶段能力要求:夯实基础、掌握主流框架、深入分布式技术、培养系统设计与业务洞察力,助力开发者明确职业进阶路径,成长为具备全局视野的技术领导者。
短难误判率仅2%,新一代网关路由SHG,在P95不升前提下完胜RouteLLM。
在和 RouteLLM 的两档式对比中 RouteLLM 将约百分之 69.3 的短难请求路由至轻量模型,而本文提出的网关系统将短难请求中落入轻档的比例压缩到约 2.4%,整体 P95 几乎不变。实验表明,短难请求构成了一类独立且在实践中高度相关的 LLM 路由稳健性问题,而针对性的、常数级开销的守护机制可以在不增加整体成本和尾部延迟的前提下,大幅缓解这一问题。
最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话
随着人工智能技术的不断发展,虚拟角色不再只是冰冷的对话机器,而是能够承载历史人物的气质、知识体系乃至精神风貌的“数字化身”。今天,我们将完整揭秘如何基于Qwen3-8B大模型,借助LLaMA-Factory Online平台,打造一个沉浸式的“苏东坡数字分身”,让前沿技术为文化传承注入新的活力。
蚂蚁百宝箱联手深铁打造全国首个地铁 AI 智能体「深铁宝」:你的全能城市向导来啦~
蚂蚁百宝箱联合深铁集团、深圳通推出全国首个“公共出行+城市服务”AI智能体「深铁宝」,上线于深圳地铁、深圳通及支付宝APP,实现一句话直达、秒级响应的智慧出行体验,涵盖出行规划、乘车码快捷调取、周边生活服务推荐等一站式功能,助力城市交通与服务数字化升级。
Thinking Machines Lab最新研究结果如何复现?On-Policy Distillation让训练成本直降10倍
Thinking Machines Lab提出On-Policy Distillation技术,让小模型高效继承大模型能力。相比传统强化学习,训练成本降低90%,效率提升十倍,支持本地部署、降低成本与延迟。结合vLLM加速与独立DeepSpeed配置,MS-SWIFT框架实现开箱即用的高效蒸馏训练,助力轻量模型具备“会思考、能纠错、可进化”的智能。
82_Chain-of-Thought:推理步骤拆解
在大语言模型(LLM)的发展历程中,推理能力一直是衡量模型智能水平的关键指标。尽管模型规模的扩大带来了知识覆盖和语言理解能力的显著提升,但在解决复杂推理问题时,单纯增加参数数量并不总能带来预期的性能提升。2022年,Jason Wei等人提出了一项革命性技术——Chain-of-Thought提示(CoT),这项技术通过引导模型生成中间推理步骤,显著增强了LLM在多步推理任务上的表现。