Deepseek开源R1系列模型,纯RL助力推理能力大跃升!

简介: 近期Deepseek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。

近期Deepseek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。

01.模型介绍

性能对齐OpenAI-o1正式版

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

在此,DeepSeek将 DeepSeek-R1 训练技术全部公开,以期促进技术社区的充分交流与创新协作。

论文链接:

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

模型链接:

https://modelscope.cn/collections/DeepSeek-R1-c8e86ac66ed943

蒸馏小模型超越 OpenAI o1-mini

DeepSeek在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

02.模型推理

使用vLLM推理

在魔搭社区免费算力上(单卡24G显存),使用vLLM推理deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

在vLLM上使用魔搭的模型只需要在任何vLLM命令之前设置一个环境变量:

export VLLM_USE_MODELSCOPE=True

使用vLLM启动服务

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --tensor-parallel-size 1 --max-model-len 1024 --enforce-eager
模型推理
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{
"model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",
"prompt": "which is bigger, 9.11 or 9.9",
"max_tokens": 512,
"temperature": 0
}'

使用ollama推理

设置ollama下启用

ollama serve
ollama run DeepSeek-R1任意GGUF模型
ollama run modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF

运行结果

03.模型微调

这里我们介绍使用ms-swift3对deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B进行微调。

在开始微调之前,请确保您的环境已正确安装:

# 安装ms-swift
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e . -i https://mirrors.aliyun.com/pypi/simple/

我们给出可运行的微调demo和自定义数据集的样式,微调脚本如下:

nproc_per_node=2
NPROC_PER_NODE=$nproc_per_node \
CUDA_VISIBLE_DEVICES=0,1 \
swift sft \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
    --train_type full \
    --dataset 'PowerInfer/QWQ-LONGCOT-500K#2000' swift/self-cognition \
    --torch_dtype bfloat16 \
    --num_train_epochs 10 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 2 \
    --learning_rate 1e-5 \
    --gradient_accumulation_steps $((16 / $nproc_per_node)) \
    --eval_steps 100 \
    --save_steps 100 \
    --save_total_limit -1 \
    --logging_steps 5 \
    --max_length 8192 \
    --output_dir output \
    --system 'You are a helpful and harmless assistant. You should think step-by-step.' \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --deepspeed zero2 \
    --model_author 魔搭 ModelScope \
    --model_name 小黄 'Xiao Huang' \
    --dataset_num_proc 16

训练显存占用:

自定义数据集格式:(直接使用`--dataset <dataset_path>`指定即可)

{"messages": [{"role": "user", "content": "问题..."}, {"role": "assistant", "content": "<think>\n\n思考的内容...(可选)</think>\n\回答..."}, {"role": "user", "content": "问题..."}, {"role": "assistant", "content": "<think>\n\n思考的内容...(可选)</think>\n\n回答..."}]}

推理脚本:

CUDA_VISIBLE_DEVICES=0 \
swift infer \
    --model output/vx-xxx/checkpoint-xxx \
    --stream true \
    --max_new_tokens 2048

点击阅读原文:DeepSeek-R1

目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
1135 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
|
11月前
|
人工智能 缓存 Cloud Native
DeepSeek-R1 来了,从 OpenAI 平滑迁移到 DeepSeek的方法
Higress 作为一款开源的 AI 网关工具,可以提供基于灰度+观测的平滑迁移方案。
2131 236
|
10月前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
6508 119
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
11月前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
14741 86
|
10月前
|
机器学习/深度学习 人工智能 开发者
阿里云支持DeepSeek-V3和DeepSeek-R1全自动安装部署,小白也能轻松上手!
阿里云PAI平台支持DeepSeek-V3和DeepSeek-R1大模型的全自动安装部署,零代码一键完成从训练到推理的全流程。用户只需开通PAI服务,在Model Gallery中选择所需模型并点击部署,即可快速生成PAI-EAS服务,获取调用信息。整个过程简单快捷,适合各水平开发者轻松上手。
3276 80
|
11月前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
3197 68
1月更文特别场——寻找用云高手,分享云&AI实践
|
10月前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
3712 11
阿里云PAI部署DeepSeek及调用
|
机器学习/深度学习 人工智能 搜索推荐
DeepSeek-V2.5-1210 在线开放使用!支持联网搜索,在各大领域的表现得到全面提升
DeepSeek-V2.5-1210 是 DeepSeek V2.5 系列的最终版微调模型,支持联网搜索功能,具备在数学、编程、写作和角色扮演等领域的能力提升。本文将详细介绍该模型的功能、技术原理及应用场景。
10417 19
DeepSeek-V2.5-1210 在线开放使用!支持联网搜索,在各大领域的表现得到全面提升
|
11月前
|
程序员 API 开发者
实战阿里qwen2.5-coder 32B,如何配置Cline的Ollama API接口。
阿里Qwen2.5大模型开源免费,适合编程应用。在Ollama平台下载时,推荐选择带有“cline”字样的Qwen2.5-Coder版本,仅需额外下载适配文件,无需重复下载模型文件。Ollama环境永久免费,配置简单,效果出色,适合开发者使用。
5309 77
|
10月前
|
机器学习/深度学习 人工智能 开发者
DeepSeek安装部署指南,基于阿里云PAI零代码,小白也能轻松搞定!
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括:开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程简单快捷,极大降低了使用门槛。
2023 43