DeepSeek-V3小版本升级,非推理模型王者归来

简介: 今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。

今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。

模型地址:

https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324

01.模型表现

DeepSeek-V3-0324 在多个关键方面展示了相较于其前代产品 DeepSeek-V3 的显著改进。

推理能力

  • 基准测试性能显著提升:
  • MMLU-Pro: 75.9 → 81.2 (+5.3)
  • GPQA: 59.1 → 68.4 (+9.3)
  • AIME: 39.6 → 59.4 (+19.8)
  • LiveCodeBench: 39.2 → 49.2 (+10.0)

前端网页开发

  • 提高了代码的可执行性
  • 更美观的网页和游戏前端

中文写作能力

  • 增强了风格和内容质量:
  • 符合 R1 写作风格
  • 在中长篇写作中的质量更高
  • 功能增强
  • 改进了多轮交互式重写
  • 优化了翻译质量和书信写作

中文搜索能力

  • 增强了报告分析请求,输出更详细

函数调用改进

  • 提高了函数调用的准确性,修复了 V3 之前版本的问题

02.使用建议

系统提示

在官方 DeepSeek 网站/应用程序中,使用带有特定日期的相同系统提示。

该助手为DeepSeek Chat,由深度求索公司创造。
今天是{current date}。

例如

该助手为DeepSeek Chat,由深度求索公司创造。
今天是3月24日,星期一。

温度设置

在deepseek的网页和应用环境中,温度参数被设置为 0.3。因为许多用户在 API 调用时使用默认的温度 1.0,所以DeepSeek实现了一个 API 温度 TapiT_{api}Tapi 映射机制,将输入的 API 温度值 1.0 调整为最适合模型的温度设置 0.3。

文件上传和网络搜索的提示

对于文件上传,请按照模板创建提示,其中 {file_name}, {file_content} 和 {question} 是参数。

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

对于网络搜索,{search_results}, {cur_date}, 和 {question} 是参数。

对于中文查询,使用的提示是:

对于英文查询,使用的提示是:


03.本地运行

使用SGLang进行推理(官方推荐)

SGLang目前支持MLA 优化、DP Attention、FP8(W8A8)、FP8 KV Cache 和 Torch Compile,在开源框架中提供最先进的延迟和吞吐量性能。

同时,SGLang v0.4.1完全支持在NVIDIA 和 AMD GPU上运行 DeepSeek-V3 ,使其成为一种高度通用且强大的解决方案。

SGLang 还支持多节点张量并行,能够在多台联网的机器上运行此模型。

推理代码:

# Installation
pip install "sglang[all]>=0.4.3" --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer-python
# Launch
python3 -m sglang.launch_server --model /Your_Model_Path/DeepSeek-V3-0324 --tp 8 --trust-remote-code

根据需要添加性能优化选项。

许可证

仓库及模型权重遵循 MIT License

欢迎点击链接跳转模型详情~

DeepSeek-V3-0324

目录
相关文章
|
前端开发 测试技术
DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?
DeepSeek-Chat模型升级至DeepSeek-V3-0324,推理能力显著增强,多项基准测试大幅提升(MMLU-Pro+5.3,GPQA+9.3,AIME+19.8,LiveCodeBench+10.0)。优化Web前端开发与代码生成准确率,提升中文写作、翻译及书信写作能力,支持中长篇高质量创作。新增多轮交互改写功能,改进Function Calling准确率,优化中文搜索与报告分析能力,输出更详实内容。
816 1
|
数据库 数据安全/隐私保护
国产化DM达梦数据库 - 用户状态查询、锁定与解锁,“登录失败次数超过限制”问题解决
国产化DM达梦数据库 - 用户状态查询、锁定与解锁,“登录失败次数超过限制”问题解决
3227 0
国产化DM达梦数据库 - 用户状态查询、锁定与解锁,“登录失败次数超过限制”问题解决
|
7月前
|
Java 应用服务中间件
从Tomcat 9.X到Tomcat 10. X以上
如果您原来使用的是Tomcat 9.X,现在您要升级到Tomcat 10. X以上,需要做如下设置
287 0
|
7月前
|
传感器 运维 监控
中小微企业能源管理 “入门神器”:MyEMS 开源系统如何低成本实现专业级管控?
MyEMS开源能源管理系统,助力中小微企业轻松破解能耗难题。无需高昂投入与复杂运维,灵活对接现有设备,实现能耗实时监控、智能分析与异常预警。功能实用、部署简单,让节能降耗真正落地,轻松迈入高效能源管理时代。(237字)
189 0
基于PID控制器的异步电机矢量控制系统simulink建模与仿真
本课题研究基于PID控制器的异步电机矢量控制系统,利用Simulink建立仿真模型,分析系统在不同工况下的运行性能。通过矢量控制技术实现对电机转速和转矩的高精度调节,验证了PID控制器在系统中的良好控制效果,提升了异步电机的稳定性和响应性,具有较强的工程应用价值。
|
人工智能 自然语言处理 运维
【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B
PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。
|
人工智能 JSON 自然语言处理
Jina Reader:一键将网页内容转为适合 LLM 处理的文本格式,自动抓取和清洗网页内容,支持多种输出格式
Jina Reader 是一款由 Jina AI 推出的开源工具,能够将网页内容快速转换为适合大型语言模型(LLMs)处理的纯文本格式,支持多种输出格式和动态内容处理。
2967 20
Jina Reader:一键将网页内容转为适合 LLM 处理的文本格式,自动抓取和清洗网页内容,支持多种输出格式
|
自然语言处理 开发者
DeepSeek全尺寸模型上线阿里云百炼!
DeepSeek全尺寸模型上线阿里云百炼!
610 4
|
Shell 开发工具 git
DeepSeekV2-lite 昇腾8卡训练实验指导
昇腾8卡运行deepseek-v2训练
392 1

热门文章

最新文章