DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

2025-02-09 42

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DeepSeek团队推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习训练，展示了卓越的推理能力，但存在可读性和语言混合问题。为此，团队引入多阶段训练和冷启动数据，推出性能与OpenAI-o1-1217相当的DeepSeek-R1，并开源了多个密集模型。实验表明，DeepSeek-R1在多项任务上表现出色，尤其在编码任务上超越多数模型。未来研究将聚焦提升通用能力和优化提示工程等方向。

论文原文链接

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek_R1.pdf

Abstract

摘要主要描述了DeepSeek团队推出了第一代的推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习（RL）训练而成的模型，没有将有监督微调（SFT）作为初步步骤，展示出了卓越的推理能力。因为通过强化学习，DeepSeek-R1-Zero呈现出了许多强大的推理表现。但是DeepSeek-R1-Zero也面临着可读性差和语言混合等挑战，因此DeepSeek团队在强化学习中引入了多阶段训练和冷启动数据，使得模型的推理性能得到进一步的提升，进而推出DeepSeek-R1。DeepSeek-R1 在推理任务上实现了与 OpenAI-o1-1217 相当的性能。为了支持研究社区，DeepSeek团队开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 提炼出的六个密集模型（1.5B、7B、8B、14B、32B、70B）。

上图是从不同测试任务下DeepSeek-R1、DeepSeek-R1-32B、OpenAI-o1-1217、OpenAI-o1-mini和DeepSeek-V3的性能表现。

Introduction

最近，后训练已成为完整训练管道的重要组成部分。它已被证明可以提高推理任务的准确性，与社会价值观保持一致，并适应用户偏好，同时对预训练所需的计算资源相对较少。
OpenAI 的 o1 （OpenAI， 2024b）系列模型率先通过增加 Chain-of-Thought 推理过程的长度来引入推理时间缩放。这让其推理性能得到了一定的提升。然而，有效测试时间缩放的挑战仍然是研究界的一个未解决的问题。DeepSeek团队也探索过，包括用奖励模型，强化学习和搜索算法（如蒙特卡洛树搜索和光束搜索）但是却还是无法达到OpenAI 的 o1系列的性能。

DeepSeek-R1-Zero

在本篇论文中DeepSeek团队使用纯强化学习（RL）提高语言模型推理就能力，目标是LLM在没有任何监督数据的情况下发展推理能力的潜力，通过纯RL过程自我进化。DeepSeek团队使用 DeepSeek-V3-Base 作为基础模型，并使用 GRPO （Shao et al.， 2024）作为 RL 框架来提高模型在推理中的性能。在训练过程中，DeepSeek-R1-Zero 自然而然地出现了许多强大的推理行为。经过数千次 RL 步骤后，DeepSeek-R1-Zero 在推理基准测试中表现出卓越的性能。但是DeepSeek-R1-Zero还需解决可读性差和语言混合的问题。为了解决这些问题并进一步提高推理性能，引入了 DeepSeek-R1。

DeepSeek-R1

它结合了少量冷启动数据和多阶段训练管道。具体来说，我们首先收集数千个冷启动数据，以微调 DeepSeek-V3-Base 模型。在此之后，我们执行面向推理的 RL，如 DeepSeek-R1Zero。在 RL 过程中接近收敛后，通过在 RL 检查点上进行拒绝采样创建新的 SFT 数据，并结合来自 DeepSeek-V3 的监督数据，在写作、事实 QA 和自我认知等领域，然后重新训练 DeepSeek-V3-Base 模型。使用新数据进行微调后，检查点将经历一个额外的 RL 过程，同时考虑所有场景的提示。经过这些步骤，我们获得了一个名为 DeepSeek-R1 的检查点，它的性能与 OpenAI-o1-1217 相当。

DeepSeek团队一步探索了从 DeepSeek-R1 到更小的致密模型的蒸馏。使用 Qwen2.532B （Qwen， 2024b）作为基本模型，从 DeepSeek-R1 直接蒸馏的性能优于对其应用 RL。这表明，大型基础模型发现的推理模式对于提高推理能力至关重要。DeepSeek团队开源了蒸馏的 Qwen 和 Llama （Dubey et al.， 2024）系列。DeepSeek团队提炼的 14B 模型的性能大大优于最先进的开源 QwQ-32B-Preview （Qwen， 2024a），提炼的 32B 和 70B 模型在密集模型中的推理基准上创下了新纪录。

Experiment

在多个基准测试中评估模型，涵盖知识、推理、编码等任务。DeepSeek-R1 在多数任务上表现出色，在数学任务上与 OpenAI-o1-1217 相当，在编码任务上超越多数模型，在知识基准测试中优于 DeepSeek-V3。蒸馏后的小模型也取得良好成绩，超越部分非推理模型和开源模型。

Discussion and Future Work

蒸馏大模型推理模式到小模型效果显著，比小模型直接大规模强化学习更有效，但提升智能仍需更强基础模型和大规模强化学习。研究中尝试的过程奖励模型和蒙特卡洛树搜索未成功。未来将从提升通用能力、解决语言混合、优化提示工程和改进软件工程任务性能等方向继续研究。

DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

论文原文链接

Abstract

Introduction

DeepSeek-R1-Zero

DeepSeek-R1

Experiment

Discussion and Future Work

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

论文原文链接

Abstract

Introduction

DeepSeek-R1-Zero

DeepSeek-R1

Experiment

Discussion and Future Work

热门文章

最新文章

相关电子书