SPAR:融合自对弈与树搜索的高性能指令优化框架

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: SPAR框架通过自对弈和树搜索机制,生成高质量偏好对,显著提升了大语言模型的指令遵循能力。实验表明,SPAR在指令遵循基准测试中表现优异,尤其在模型规模扩展和判断能力方面展现出显著优势。

大语言模型的指令遵循能力需要模型能够准确识别指令中的细微要求,并在输出中精确体现这些要求。现有方法通常采用偏好学习进行优化,在创建偏好对时直接从模型中采样多个独立响应。但是这种方法可能会引入与指令精确遵循无关的内容变化(例如,同一语义的不同表达方式),这干扰了模型学习识别能够改进指令遵循的关键差异。

针对这一问题,这篇论文提出了SPAR框架,这是一个集成树搜索自我改进的自对弈框架,用于生成有效且具有可比性的偏好对,同时避免干扰因素。通过自对弈机制,大语言模型采用树搜索策略,基于指令对先前的响应进行改进,同时将不必要的变化降至最低。

主要创新点:

  • 发现从独立采样响应中获得的偏好对通常包含干扰因素,这些因素阻碍了通过偏好学习提升指令遵循能力
  • 提出SPAR,一个创新的自对弈框架,能够在指令遵循任务中实现持续性自我优化
  • 构建了包含43K个复杂指令遵循提示的高质量数据集,以及一个能够提升大语言模型指令遵循能力的监督微调数据集

方法论

整体框架

SPAR迭代训练框架如图所示:

  • 在形式化定义中,每次迭代时,给定提示集中的指令x,执行模型生成响应y
  • 改进模型负责识别未能准确遵循指令的响应,将其标记为负面响应
  • 框架的核心目标是将负面响应优化为符合要求的正确响应
  • 收集生成的改进对,通过直接偏好优化(DPO)来优化执行模型
  • 同时,应用拒绝采样微调(RFT)提升改进模型性能,为下一轮自我优化做好准备

数据构建方法

提示构建

  • 种子提示:基于Infinity-Instruct数据集构建初始种子提示集,该数据集包含一千万条高质量对话。经过基于长度、关键词和自我-BLEU的规则过滤,最终获得约50k条种子提示
  • 分类法驱动的提示构建:采用基于分类法的机制确保约束类型的全面性和平衡性。在建立约束分类体系后,基于种子提示构建复杂指令遵循任务,最终生成约43k条提示

模型初始化

  • 执行模型数据构建: 首先收集高性能语言模型对复杂提示的响应,生成用于执行模型的监督微调(SFT)数据(x, y) ∈ DActor,其中x表示复杂指令,y表示高性能模型的响应。随后对基础模型进行微调,得到初始执行模型M0
  • 改进模型数据构建: 为使改进模型具备高质量的判断和改进能力,从初始执行模型M0中采样响应。收集高性能语言模型的判断结果,形成数据集(x, y, j) ∈ DJSFT。识别并收集被判定为未能准确遵循指令的响应作为负面样本。对这些负面响应,使用高性能语言模型进行最小化修正,避免引入无关变化
  • 训练策略: 执行模型和改进模型均采用标准监督微调,损失函数定义如下:

其中q代表输入,r代表目标响应,N代表r的长度。执行模型训练中,输入q = x,目标r = y。改进模型训练中,对于DJSFT,输入q = (x, y),目标r = j;对于DRSFT,输入q = (x, ynegative, j),目标r = yrefined。

集成树搜索的自对弈训练机制

a) 负面数据采集流程

  • 对每个提示x,首先从执行模型中采样K个响应{y1, y2, . . . , yK}
  • 对每组提示-响应对,利用改进模型生成判断结果,包含两个核心要素:指令遵循程度的标签判定和详细的评估说明
  • 为提高判断准确性,引入自一致性机制,通过从改进模型获取多个判断结果并采用多数投票确定最终标签
  • 在完成多数投票后,随机选取一个与投票标签一致的判断作为最终结果,这使论文提出的方法能够识别出那些会导致指令遵循失败的高难度提示,形成(x, ynegative, j)格式的数据元组,其中ynegative表示不合格响应,j为对应判断结果

b) 树搜索优化方法

  • 考虑到直接改进往往导致较低的成功率,本研究采用树搜索方法,实现了广度优先搜索(BFS)和深度优先搜索(DFS)策略
  • 以BFS为例,从不合格的指令-响应对及其判断结果作为根节点出发,逐层扩展搜索树,直至找到符合要求的响应
  • 在每个中间节点,为当前响应生成潜在的改进方案,并由改进模型评估其正确性。生成的改进方案数量即为分支数
  • 在树的每一层,改进模型执行以下操作:1). 为当前层的所有节点生成潜在的改进方案;2). 评估这些改进方案的正确性。由此生成包含新响应及其对应判断的子节点集合
  • 搜索过程持续进行,直到获得数据元组(x, ynegative, yrefined),其中yrefined为经过改进的合格响应

c) 执行模型训练方法

  • 利用改进对数据进行偏好学习,采用DPO方法优化执行模型
  • 在第t次迭代中,使用改进对(ynegative, yrefined)训练执行模型Mt,将ynegative作为被拒绝样本(yl),yrefined作为被选择样本(yw)
  • 训练数据集记为Dtdpo,DPO损失函数定义如下:

其中π tθ表示执行模型Mt,参考模型π ref使用Mt初始化并在训练过程中保持不变。这一过程产生新的执行模型Mt+1,用于下一轮迭代

d) 改进模型训练方法

鉴于改进模型的输入具有模板化特征,论文采用拒绝采样微调(RFT)方法获取新的改进模型Rt+1。RFT训练数据包含两个主要组成部分:

(1) 改进训练数据集

  • 改进训练数据集由记录不合格响应改进过程的数据元组构成
  • 对于树搜索改进过程中的每个不合格响应,收集(x, yp, jp, yrefined)格式的数据元组,其中(x, yp, jp)代表改进树中最终合格响应的父节点,yrefined为经过改进的合格响应

(2) 判断训练数据集

  • 判断训练数据来源于负面数据采集过程和树搜索过程中的节点
  • 该数据集由(x, yi, ji)格式的元组组成,其中x为提示,yi为对应响应,ji为与多数投票结果一致的判断
  • 随后,基于构建的训练数据进行监督微调
  • 对于改进数据集Dtrefine,采用数据元组(x, yp, jp, yrefined),输入q = (x, yp, jp),目标r = yrefined。对于判断数据集Dtjudge,采用数据元组(x, yi, ji),输入q = (x, yi),目标r = ji。

实验研究

执行模型评估结果

SPAR在指令遵循能力方面的显著提升

下表展示了经过迭代训练的大语言模型在指令遵循基准测试上的核心性能指标

经过三轮迭代训练后,SPAR-8B-DPO-iter3模型在IFEval评测中的表现超越了GPT-4-Turbo(后者的平均准确率为81.3%)。此外,在推理阶段引入树搜索优化技术后,模型性能获得显著提升

值得注意的是,SPAR在模型规模扩展方面表现出优异的特性,这极大地增强了LLaMA3-70B-Instruct模型的指令遵循能力

SPAR对模型通用能力的影响分析

下表呈现了在通用基准测试上的性能数据

实验数据表明,SPAR不仅保持了模型的通用能力,在某些场景下还带来了性能提升,尤其是在GSM8k和HumanEval基准测试中。这证实了增强的指令遵循能力有助于提升大语言模型的整体对齐效果

SPAR相较于基线方法的优势

下图展示了各轮训练迭代在IFEval评测中的进步情况

在每轮迭代中,SPAR都展现出明显的优势。特别值得注意的是,其他方法即使经过三轮迭代,其性能仍未能达到SPAR首轮迭代的水平

改进模型评估结果

SPAR在判断能力方面的迭代提升

下表展示了经过迭代训练的大语言模型在LLMBar评测中的判断能力表现

实验结果显示,SPAR迭代训练显著提升了模型评估指令遵循任务的能力

在第三轮迭代后,改进模型SPAR-8B-RFT-iter3的性能超越了用于构建判断SFT数据集的GPT-4o-Mini模型

SPAR在改进能力方面的持续优化

下表呈现了改进能力的评估结果。其中Acc-GPT采用GPT-4o作为评判标准;Acc-SPAR则使用SPAR-8B-RFT-iter3进行评估

数据显示,LLaMA3-8B-Instruct模型的改进准确率在每轮训练迭代中均呈现稳定提升趋势,最终达到了与用于SFT数据构建的高性能模型GPT-4o-Mini相当的水平

总结

本研究提出了创新性的自对弈框架SPAR,通过改进对训练提升大语言模型的指令遵循能力。研究发现,与传统方法采用独立采样响应构建偏好对相比,通过最小化外部因素并突出关键差异的改进对方法,能在指令遵循任务上实现显著性能提升。采用本框架进行迭代训练的LLaMA3-8B-Instruct模型在IFEval评测中展现出超越GPT-4-Turbo的性能。通过推理计算能力的扩展,模型性能还有进一步提升的空间

https://avoid.overfit.cn/post/34fe841bb20f40e898570f8b81cf7ad6

作者:SACHIN KUMAR

目录
相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 算法
RAPTOR:多模型融合+层次结构 = 检索性能提升20%,结果还更稳健
本文探讨了通过多模型集成技术提升信息检索系统性能的方法,重点介绍了RAPTOR框架。RAPTOR通过构建层次化的信息组织结构和递归摘要技术,显著提高了检索系统的性能和适应性。研究建立在RAG Fusion技术基础上,旨在提供更全面的信息检索解决方案。
227 2
RAPTOR:多模型融合+层次结构 = 检索性能提升20%,结果还更稳健
|
2月前
|
算法 数据处理 开发者
超越传统:Python二分查找的变种策略,让搜索效率再上新台阶!
本文介绍了二分查找及其几种Python实现的变种策略,包括经典二分查找、查找第一个等于给定值的元素、查找最后一个等于给定值的元素以及旋转有序数组的搜索。通过调整搜索条件和边界处理,这些变种策略能够适应更复杂的搜索场景,提升搜索效率和应用灵活性。
39 5
|
3月前
|
自然语言处理 数据可视化 数据挖掘
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
本文探讨了自然语言处理中嵌入技术的应用,重点在于语义搜索及聚类方法。通过对比不同规模的开源与闭源模型,文章展示了如何利用聚类技术过滤无关结果,提高搜索精度。实验结果显示,较小模型如mxbai在某些任务上表现优异,提示我们在追求高性能的同时不应忽视计算效率与成本效益。最后,文章还介绍了重新排序技术,进一步优化检索结果的相关性。
113 6
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
|
6月前
|
机器学习/深度学习 自然语言处理 并行计算
淘宝搜索中的深度语义模型:从理论到实践
淘宝搜索系统通过引入深度语义模型,极大地提升了搜索质量和用户体验。这些模型不仅能够准确理解用户的需求,还能够智能地匹配和推荐商品,为用户提供了一个更加便捷、个性化的购物环境。随着技术的不断发展和完善,淘宝搜索将会变得更加智能和高效。
|
8月前
深度优化搜索,字典树
深度优化搜索,字典树
71 0
|
索引
白话Elasticsearch20-深度探秘搜索技术之使用rescoring机制优化近似匹配搜索的性能
白话Elasticsearch20-深度探秘搜索技术之使用rescoring机制优化近似匹配搜索的性能
87 0
|
分布式计算 算法 Java
白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端
白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端
106 0
|
分布式计算 Java Hadoop
白话Elasticsearch08-深度探秘搜索技术之基于boost的细粒度搜索条件权重控制
白话Elasticsearch08-深度探秘搜索技术之基于boost的细粒度搜索条件权重控制
165 0
|
机器学习/深度学习 编解码 TensorFlow
MnasNet架构解析与复现-神经架构搜索
为移动设备设计卷积神经网络 (CNN) 具有挑战性,因为移动模型需要小而快,但仍要准确。尽管在所有维度上都致力于设计和改进移动 CNN,但当需要考虑如此多的架构可能性时,很难手动平衡这些权衡。在本文中,我们提出了一种**自动移动神经架构搜索 (MNAS) 方法**,该方法明确地将模型延迟纳入主要目标,以便搜索可以识别出在准确性和延迟之间取得良好折衷的模型。与之前的工作不同,延迟是通过另一个通常不准确的代理(例如 FLOPS)来考虑的,我们的方法通过在手机上执行模型来直接测量现实世界的推理延迟。为了进一步在灵活性和搜索空间大小之间取得适当的平衡,我们**提出了一种新颖的分解层次搜索空间,它鼓励整
573 0
MnasNet架构解析与复现-神经架构搜索
|
人工智能 BI
从喧闹与富有中搞懂搜索和拓扑
今天给大家分享一个非常有趣的面试题,通过这个问题你可能会对某些情况下,搜索和拓扑有一定的认识,一个问题,既可以用搜索来处理,用记忆化搜索优化,也可以用拓扑排序来解决。
160 0
从喧闹与富有中搞懂搜索和拓扑