SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

简介: SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/mCHayCRFwtK6UyLxi-5WaA


🚀 快速阅读

  1. 框架功能:SPAR 通过生成者和完善者的自我博弈,提升大型语言模型的指令遵循能力。
  2. 技术原理:基于树搜索算法,SPAR 精细化模型响应,排除干扰因素,专注于指令关键要求。
  3. 应用场景:SPAR 可应用于智能助手、客户服务、教育技术、医疗咨询和智能家居控制等领域。

正文(附运行示例)

SPAR 是什么

公众号: 蚝油菜花 - SPaR

SPAR 是智谱团队推出的自我博弈训练框架,旨在增强大型语言模型在遵循指令方面的能力。该框架基于生成者和完善者两个角色的互动,生成者负责执行指令并生成回复,完善者则对回复进行分析和改进。

通过树搜索技术,SPAR 能够精细化和优化回复,排除与指令无关的干扰因素,从而突出对指令遵循至关重要的关键差异。这一过程不仅提升了模型执行指令的准确性,还增强了模型的自我完善能力。实验结果显示,SPAR 框架显著提高了模型在 IFEval 等评估基准上的性能,证明了其在提升大型语言模型指令遵循能力方面的有效性。

SPAR 的主要功能

  • 提升指令遵循能力:提高大型语言模型准确理解和执行指令的能力。
  • 构造有效偏好对:基于自我博弈和树搜索策略,构造出有效且可比较的偏好对,帮助模型学习关键差异。
  • 自我博弈迭代改进:模型通过扮演生成者和完善者两个角色,进行自我博弈,不断改进指令遵循能力。
  • 树搜索策略:使用树搜索算法精细化模型的响应,确保生成的回复更准确地遵循指令。
  • 模型性能优化:通过优化生成者和完善者模型,提高整体的指令遵循性能。
  • 可扩展性和可转移性:展示了对不同大小模型的可扩展性和可转移性,能提升各种规模模型的指令遵循能力。

SPAR 的技术原理

  • 自我博弈框架:SPAR 框架中,大型语言模型扮演生成者和完善者两个角色,生成者生成回复,完善者对回复进行评估和改进。
  • 树搜索算法:基于树搜索算法(包括广度优先搜索 BFS 和深度优先搜索 DFS)探索可能的回复路径,并找到最佳回复。
  • 去除干扰因素:通过精细化回复对,排除与指令遵循无关的干扰因素,让模型专注于学习指令的关键要求。
  • 迭代训练:通过迭代训练的方式,不断优化生成者和完善者模型,每轮迭代都基于前一轮的结果进行改进。
  • 数据构建:构建高质量的数据集,包含复杂指令遵循提示和相应的监督式微调(SFT)数据,用于初始化和训练生成者和完善者模型。
  • 模型优化:通过树搜索策略生成的精细化回复对,SPAR 基于直接偏好优化(DPO)和拒绝重采样微调(RFT)训练生成者和完善者模型,实现持续的自我提升。

如何运行 SPAR

数据构建

要构建迭代训练数据,可以运行以下命令:

cd src

bash infer.sh

python process_data.py

bash judge.py

python process_data.py

vllm serve <your-model-path>

python tree_search.py

python process_data.py

模型训练

如果你想训练自己的模型,可以运行以下命令:

cd src

# dpo
llamafactory-cli train configs/dpo.yaml

# sft
llamafactory-cli train configs/sft.yaml

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2371 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
5月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1911 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
4月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
498 6
|
5月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
1424 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
421 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
4月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
367 6
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1116 51
|
5月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1203 60
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
608 30

热门文章

最新文章