近年来,生成式AI模型的快速发展在很大程度上要归功于一种名为“基于人类反馈的强化学习”(RLHF)的技术。然而,随着RLHF管道的复杂性日益增加,一种名为“直接偏好优化”(DPO)的直接对齐算法作为替代方法出现了。尽管DPO和标准RLHF解决了相同的目标,但两者之间存在一些差异。标准RLHF在特定的标记级MDP中部署强化学习,而DPO则被推导为一个多臂老虎机问题,其中模型的整个响应被视为单个臂。
最近,斯坦福大学的研究人员在一篇题为“From r to Q∗: Your Language Model is Secretly a Q-Function”的论文中,通过将DPO重新解释为一种一般的反向Q学习算法,弥合了这一差距。该论文指出,这种重新解释不仅在理论上满足了贝尔曼方程,而且在实践中也带来了一些有益的见解。
首先,研究人员发现,由于DPO的标记级解释,它能够执行某种形式的信用分配。这意味着DPO能够确定哪些标记对模型的最终响应做出了积极的贡献,从而可以相应地调整其策略。这种能力对于生成式AI模型来说非常重要,因为它们需要能够根据输入生成连贯且相关的输出。
其次,研究人员证明了在标记级公式下,最近应用于语言生成领域的基于搜索的算法(如MCTS)等经典搜索算法,等价于基于DPO策略的基于似然的搜索。具体而言,他们发现简单的束搜索可以显著改善基本DPO策略的性能。这一发现表明,基于搜索的方法可以成为提高生成式AI模型性能的有力工具。
然而,该研究还指出了DPO方法的一个潜在问题,即参考策略的选择可能导致训练过程中隐式奖励的减少。这意味着如果选择不合适的参考策略,DPO算法的性能可能会受到影响。因此,研究人员建议在使用DPO方法时仔细选择参考策略。