这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数-阿里云开发者社区

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

2024-05-09 60

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第8天】研究人员发现直接偏好优化（DPO）能作为RLHF的替代，通过将DPO重新诠释为反向Q学习，解决了两者间的理论与实践差距。DPO具备信用分配能力，能优化生成式AI模型的策略。此外，经典搜索算法如MCTS在DPO框架下可提升语言生成性能。但选择不当的参考策略可能降低DPO的训练效果，需谨慎选择。论文链接：https://arxiv.org/pdf/2404.12358.pdf

近年来，生成式AI模型的快速发展在很大程度上要归功于一种名为“基于人类反馈的强化学习”（RLHF）的技术。然而，随着RLHF管道的复杂性日益增加，一种名为“直接偏好优化”（DPO）的直接对齐算法作为替代方法出现了。尽管DPO和标准RLHF解决了相同的目标，但两者之间存在一些差异。标准RLHF在特定的标记级MDP中部署强化学习，而DPO则被推导为一个多臂老虎机问题，其中模型的整个响应被视为单个臂。

最近，斯坦福大学的研究人员在一篇题为“From r to Q∗: Your Language Model is Secretly a Q-Function”的论文中，通过将DPO重新解释为一种一般的反向Q学习算法，弥合了这一差距。该论文指出，这种重新解释不仅在理论上满足了贝尔曼方程，而且在实践中也带来了一些有益的见解。

首先，研究人员发现，由于DPO的标记级解释，它能够执行某种形式的信用分配。这意味着DPO能够确定哪些标记对模型的最终响应做出了积极的贡献，从而可以相应地调整其策略。这种能力对于生成式AI模型来说非常重要，因为它们需要能够根据输入生成连贯且相关的输出。

其次，研究人员证明了在标记级公式下，最近应用于语言生成领域的基于搜索的算法（如MCTS）等经典搜索算法，等价于基于DPO策略的基于似然的搜索。具体而言，他们发现简单的束搜索可以显著改善基本DPO策略的性能。这一发现表明，基于搜索的方法可以成为提高生成式AI模型性能的有力工具。

然而，该研究还指出了DPO方法的一个潜在问题，即参考策略的选择可能导致训练过程中隐式奖励的减少。这意味着如果选择不合适的参考策略，DPO算法的性能可能会受到影响。因此，研究人员建议在使用DPO方法时仔细选择参考策略。

论文地址：https://arxiv.org/pdf/2404.12358.pdf

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景