SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/mCHayCRFwtK6UyLxi-5WaA


🚀 快速阅读

  1. 框架功能:SPAR 通过生成者和完善者的自我博弈,提升大型语言模型的指令遵循能力。
  2. 技术原理:基于树搜索算法,SPAR 精细化模型响应,排除干扰因素,专注于指令关键要求。
  3. 应用场景:SPAR 可应用于智能助手、客户服务、教育技术、医疗咨询和智能家居控制等领域。

正文(附运行示例)

SPAR 是什么

公众号: 蚝油菜花 - SPaR

SPAR 是智谱团队推出的自我博弈训练框架,旨在增强大型语言模型在遵循指令方面的能力。该框架基于生成者和完善者两个角色的互动,生成者负责执行指令并生成回复,完善者则对回复进行分析和改进。

通过树搜索技术,SPAR 能够精细化和优化回复,排除与指令无关的干扰因素,从而突出对指令遵循至关重要的关键差异。这一过程不仅提升了模型执行指令的准确性,还增强了模型的自我完善能力。实验结果显示,SPAR 框架显著提高了模型在 IFEval 等评估基准上的性能,证明了其在提升大型语言模型指令遵循能力方面的有效性。

SPAR 的主要功能

  • 提升指令遵循能力:提高大型语言模型准确理解和执行指令的能力。
  • 构造有效偏好对:基于自我博弈和树搜索策略,构造出有效且可比较的偏好对,帮助模型学习关键差异。
  • 自我博弈迭代改进:模型通过扮演生成者和完善者两个角色,进行自我博弈,不断改进指令遵循能力。
  • 树搜索策略:使用树搜索算法精细化模型的响应,确保生成的回复更准确地遵循指令。
  • 模型性能优化:通过优化生成者和完善者模型,提高整体的指令遵循性能。
  • 可扩展性和可转移性:展示了对不同大小模型的可扩展性和可转移性,能提升各种规模模型的指令遵循能力。

SPAR 的技术原理

  • 自我博弈框架:SPAR 框架中,大型语言模型扮演生成者和完善者两个角色,生成者生成回复,完善者对回复进行评估和改进。
  • 树搜索算法:基于树搜索算法(包括广度优先搜索 BFS 和深度优先搜索 DFS)探索可能的回复路径,并找到最佳回复。
  • 去除干扰因素:通过精细化回复对,排除与指令遵循无关的干扰因素,让模型专注于学习指令的关键要求。
  • 迭代训练:通过迭代训练的方式,不断优化生成者和完善者模型,每轮迭代都基于前一轮的结果进行改进。
  • 数据构建:构建高质量的数据集,包含复杂指令遵循提示和相应的监督式微调(SFT)数据,用于初始化和训练生成者和完善者模型。
  • 模型优化:通过树搜索策略生成的精细化回复对,SPAR 基于直接偏好优化(DPO)和拒绝重采样微调(RFT)训练生成者和完善者模型,实现持续的自我提升。

如何运行 SPAR

数据构建

要构建迭代训练数据,可以运行以下命令:

cd src

bash infer.sh

python process_data.py

bash judge.py

python process_data.py

vllm serve <your-model-path>

python tree_search.py

python process_data.py

模型训练

如果你想训练自己的模型,可以运行以下命令:

cd src

# dpo
llamafactory-cli train configs/dpo.yaml

# sft
llamafactory-cli train configs/sft.yaml

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
13天前
|
机器学习/深度学习 存储 人工智能
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
96 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
7天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
112 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
4天前
|
人工智能 开发框架 自然语言处理
Eko:一句话就能快速构建复杂工作流的 AI 代理开发框架!快速实现自动操作电脑和浏览器完成任务
Eko 是 Fellou AI 推出的开源 AI 代理开发框架,支持自然语言驱动,帮助开发者快速构建从简单指令到复杂工作流的智能代理。
95 12
Eko:一句话就能快速构建复杂工作流的 AI 代理开发框架!快速实现自动操作电脑和浏览器完成任务
|
13天前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
66 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
10天前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
51 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
11天前
|
人工智能 运维 Prometheus
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
87 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
|
5天前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
37 7
|
13天前
|
人工智能 物联网
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
55 10
|
13天前
|
人工智能 测试技术 决策智能
玩转智能体魔方!清华推出AgentSquare模块化搜索框架,开启AI智能体高速进化时代
清华大学研究团队提出模块化LLM智能体搜索(MoLAS)框架AgentSquare,将LLM智能体设计抽象为规划、推理、工具使用和记忆四大模块,实现模块间的轻松组合与替换。通过模块进化和重组机制,AgentSquare显著提升了智能体的适应性和灵活性,并在多个基准测试中表现出色,平均性能提高17.2%。此外,该框架还具备可解释性,有助于深入理解智能体架构对任务性能的影响。论文地址:https://arxiv.org/abs/2410.06153
55 10

热门文章

最新文章