本文转自 通义千问Qwen
近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。
因此,自动识别推理过程中的错误,对于模型可扩展监督变得越来越重要。
过程奖励模型(Process Reward Models, PRMs)作为数学推理过程监督中的一种有前途的方法出现,旨在识别和减轻推理过程中的中间错误。
近日,通义千问Qwen团队开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM,共72B及7B尺寸两个版本,两个模型性能均超越同类开源过程奖励模型。特别是在识别推理错误步骤能力上,Qwen2.5-Math-PRM 以7B的小尺寸就超越了 GPT-4o。
同时,团队还开源了首个步骤级的评估标准 ProcessBench,为大模型推理过程错误评估提供新的标准参考。
01 .Process Reward Model 开源
基于PRM的理念,Qwen团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与模型评判(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。
Qwen团队发布了两个 PRMs,即 Qwen2.5-Math-PRM-7B 和 Qwen2.5-Math-PRM-72B,它们分别在 Qwen2.5-Math-7B-Instruct 和 Qwen2.5-Math-72B-Instruct 上进行微调得来,两个 PRM 模型的数据利用率和评测性能表现均显著提高。
这两个模型均已在魔搭社区开源:
- https://modelscope.cn/models/Qwen/Qwen2.5-Math-PRM-7B
- https://modelscope.cn/models/Qwen/Qwen2.5-Math-PRM-72B
02 Best-of-N 评测结果
在评估方面,以往的研究主要依赖于响应级别的 Best-of-N(BoN)评估,即根据PRM从N个候选答案中选择得分最高的响应。
按照Qwen2.5-Math的方法,Qwen团队从多个数学基准测试中用 Qwen2.5-Math-7B-Instruct 采样了八个回答(即N=8),包括 GSM8K、MATH、Minerva Math、GaoKao 2023 En、OlympiadBench、College Math和MMLU STEM。每个候选回答的得分是该回答中每个步骤的分数乘积。Qwen团队将八次采样中的多数投票结果(maj@8)作为基线,将pass@8(即在八次采样中有任意一个采样得出正确最终答案的测试样本比例)作为上限。
如下表所示,Qwen2.5-Math-PRM-7B 相比其他同等规模的PRMs表现出更优的性能。值得注意的是,它在所有7项任务中均优于maj@8,平均提高了1.4%。此外,Qwen2.5-Math-PRM-72B 的整体性能略优于 Outcome Reward Model (ORM) Qwen2.5-Math-RM-72B,特别是在 Minerva Math 和 MMLU STEM 任务中表现显著。
03 .全新ProcessBench评估标准开源
为更好衡量模型识别数学推理中错误步骤的能力,Qwen团队提出了全新的评估标准ProcessBench。
ProcessBench 由3,400个测试案例组成,主要集中在竞赛和奥林匹克级别的数学问题上。每个测试案例包含一个逐步解决方案,并由人类专家标注错误位置。模型需要识别出第一个错误的步骤,或者得出所有步骤都正确的结论。
ProcessBench 可以用于评估两种类型的模型:PRMs和批评模型,后者通过提示通用语言模型来逐步检查回答中的步骤。
在 ProcessBench 上,Qwen团队评估了最新的 PRMs,以测量其识别错误步骤的能力。
与 LLM-as-judge 相比,Qwen2.5-Math-PRM-7B 以较小规模在所有开源LLM 中表现出色;对于闭源模型,Qwen2.5-Math-PRM-7B 超越了 GPT-4o-0806,但在性能上仍与 o1-mini 存在差距。
此外,与现有的PRMs相比,Qwen2.5-Math-PRM-7B 和Qwen2.5-Math-PRM-72B 都显示出显著的优势。一个有趣的观察是,ORM Qwen2.5-Math-RM-72B 在识别步骤错误方面也表现出不错的能力,甚至超过了某些开源PRMs。
04 .探索模型推理前沿
ProcessBench 展示了现有PRMs面临的挑战,并填补了 PRMs 步骤级别评估的空白。除了开源 PRMs 以外,Qwen团队还在论文中通过广泛的实证研究识别了当前PRMs数据构建方法的局限性,并揭示了仅使用响应级别 BoN 评估 PRMs 的潜在偏差。
希望 ProcessBench、PRM 的最佳实践能够促进未来对推理过程监督的研究和开发。
更多细节请查看论文:
The Lessons of Developing Process Reward Models in Mathematical Reasoning
https://arxiv.org/pdf/2501.07301
点击链接阅读原文:通义千问2.5-Math-PRM-7B