小模型驱动大智能:NVIDIA新研究实现2.5倍效率提升,成本直降70%


论文标题:ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
作者团队:英伟达、香港大学
发布时间:2025年11月27日
⭐论文简介
大语言模型在解决深度复杂问题时面临计算成本高、推理能力不足的挑战;现有工具代理多依赖单一强大模型,缺乏对“工具编排”的系统性优化,导致效率与成本难以平衡。
这篇论文解决的是,训练一个小型语言模型(Orchestrator) 作为编排器,动态协调多种工具(基础工具、专业LLMs、通用LLMs),通过强化学习优化任务完成效果。
⭐核心创新
论文核心是训练一个小型语言模型作为“编排器”,通过强化学习让小模型学会 “何时调用、调用什么、如何组合” 工具,实现 “以小控大、降本增效”。
该方法将多工具任务建模为马尔可夫决策过程,编排器通过“多轮滚动”交替执行“推理”和“工具调用”,逐步完成任务。
奖励设计包含三重目标:结果正确性(任务是否解决)、效率(成本与延迟)、用户偏好(工具选择倾向),引导模型平衡性能与成本,适配用户需求。
为支持训练,论文还提出了ToolScale数据集,通过模拟工具环境与生成多样化任务,解决端到端RL训练的数据稀缺问题。
⭐论文的贡献
- 提出“编排范式”,用小型模型协调工具实现“性能 - 成本”最优;
- 发布ToolScale数据集,推动工具代理研究;
- 证明小型编排模型在复杂任务上可超越大模型,为低成本、可扩展的AI系统提供新思路。