DeepSeek V4 本周发布，英伟达首次被“跳过”：中国 AI 换了一条路-阿里云开发者社区

DeepSeek V4 本周发布，英伟达首次被“跳过”：中国 AI 换了一条路

2026-03-02 2772

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 过去一年，全球AI竞相发布大模型，DeepSeek却保持“静默”。本周将发布的V4并非简单升级：它原生支持文本、图像与视频多模态，并优先适配国产AI芯片，标志从“蛮力堆算力”转向“结构创新”。继低成本高性能量产模型R1后，V4延续其工程效率路线，探索资源受限下的可持续AI路径。

过去一年，全球 AI 行业几乎没有真正的“静默期”。

OpenAI 连续发布多代 GPT，Anthropic 的 Claude 快速跻身第一梯队，Google Gemini 高速迭代。硅谷用百亿、千亿美金级别的投入，把大模型竞赛推向白热化。

而就在这样的背景下，一家中国公司显得异常“安静”。

据金融时报报道，DeepSeek V4 预计将于本周正式发布。距离 DeepSeek 上一次发布具有里程碑意义的模型 R1，已经过去了一年多。

这一年里，DeepSeek 没有发布会、没有路演，也很少出现在聚光灯下。但从目前披露的信息来看，V4 并不只是一次常规升级，而更像一次方向性的转向。

不只是升级：V4 是一次多模态与架构选择的合流
从目前流出的信息判断，DeepSeek V4 将是一款原生多模态大模型，支持文本、图片与视频的统一理解与生成。

这意味着，DeepSeek 终于补齐了此前长期被认为是短板的图像与视频能力。在过去，DeepSeek 更像是一位“文字型选手”：推理、代码和数学能力极强，但多模态并非主战场。V4 的出现，显然意在完成这块拼图。

更值得注意的是另一点——芯片适配策略的变化。

多家外媒提到，DeepSeek V4 并未选择在发布前与英伟达做深度优化适配，而是优先针对国产 AI 芯片进行调优。这一选择打破了行业惯例。

在过去，几乎所有顶级大模型都会围绕英伟达 GPU 进行性能优化。但 V4 释放出的信号是：即便不以最顶级的 GPU 作为前提，也能跑出一流模型。

客观来说，在预训练阶段，高端 GPU 依然占据主导地位；但如果 V4 在推理阶段实现了对国产芯片的成熟适配，其商业化意义将远超一次模型能力提升。

回看 R1：为什么 DeepSeek 会被反复提起？
要理解 V4 的分量，绕不开去年的 R1。

2025 年 1 月，DeepSeek 几乎“无声”地上线了 R1 推理模型，只附带了一份技术报告。随后发生的事情，至今仍被频繁回顾。

R1 在多项推理基准上达到了与 OpenAI 顶级模型相当甚至更优的水平，而 DeepSeek 公布的训练成本，仅为数百万美元量级。同时，R1 选择了开源。

一周后，DeepSeek App 一度登顶苹果 App Store 免费榜。同一天，美股 AI 板块出现剧烈波动，英伟达单日市值蒸发创下纪录。

那一刻，市场第一次被迫直面一个问题：

★
如果一家中国公司，能用显著更低的成本，做出同等级别的模型，那巨额基础设施投入的逻辑，还是否成立？

静默的一年，其实是系统性铺垫
R1 之后，DeepSeek 并未急于发布“下一代旗舰”，但这一年并非空转。

从 V3 的持续演进、R1 的多次强化，到稀疏注意力、自验证、条件记忆等研究论文的公开，DeepSeek 在做的，是将推理能力、多模态、长上下文与系统架构逐步融合。

从目前披露的研究成果来看，V4 很可能基于：

更高效的信息流动结构
面向百万级上下文的条件记忆机制
推理与工具调用的深度整合
这些能力并不直接体现在“榜单名次”上，却直接决定模型能否进入真实生产环境。

发布前的争议与舆论噪声
在 V4 即将发布的节点上，海外舆论场也出现了一些紧张信号。

Anthropic 曾公开指控多家中国团队存在“蒸馏”行为，引发争议。与此同时，社区用户也发现 Claude 在多语言环境下出现模型身份混淆的现象——有用户用中文提问，Claude 竟自称“我是 DeepSeek”，引发大量讨论与调侃。

更具戏剧性的是，就在 Anthropic 高调指控的同一天，美国联邦政府宣布所有机构立即停用 Anthropic 技术，五角大楼将其列为“供应链风险”。马斯克在 X 平台直言：“他们怎么敢偷 Anthropic 从人类程序员那里偷来的东西？”

这些事件本身，或许并不足以构成技术判断，但它们反映了一个现实：当竞争进入深水区，技术之外的叙事博弈正在升温。

从“蛮力”到“结构”：一条逐渐清晰的路径
回看 DeepSeek 的发展轨迹，其实非常清晰：

不依赖发布会制造声量
更关注工程效率与系统结构
把资源优先投向“如何跑得更好”，而不是“跑得更大”
在外部环境受限的情况下，这条路径并非权宜之计，而是一种长期选择。

当顶级芯片不再是唯一变量，架构设计、训练策略、推理效率和系统工程能力，开始成为决定性因素。

写在最后
DeepSeek V4 的发布，很可能不会是一个平静的事件。

但比“登不登顶榜单”更重要的问题是：它是否再次证明了一件事——世界级模型，不只有一条通往未来的路。

如果说过去几年，中国 AI 更多是在追赶能力上限，那么从 R1 到 V4，DeepSeek 展示的，是另一种可能性：

在资源受限的前提下，通过结构创新和工程效率，走出一条可持续、可落地的技术路径。

真正值得关注的，或许正是这一点。

DeepSeek V4 本周发布，英伟达首次被“跳过”：中国 AI 换了一条路

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DeepSeek V4 本周发布，英伟达首次被“跳过”：中国 AI 换了一条路

热门文章

最新文章

相关电子书