DeepSeek V4 本周发布,英伟达首次被“跳过”:中国 AI 换了一条路

简介: 过去一年,全球AI竞相发布大模型,DeepSeek却保持“静默”。本周将发布的V4并非简单升级:它原生支持文本、图像与视频多模态,并优先适配国产AI芯片,标志从“蛮力堆算力”转向“结构创新”。继低成本高性能量产模型R1后,V4延续其工程效率路线,探索资源受限下的可持续AI路径。

过去一年,全球 AI 行业几乎没有真正的“静默期”。

OpenAI 连续发布多代 GPT,Anthropic 的 Claude 快速跻身第一梯队,Google Gemini 高速迭代。硅谷用百亿、千亿美金级别的投入,把大模型竞赛推向白热化。

而就在这样的背景下,一家中国公司显得异常“安静”。

据 金融时报 报道,DeepSeek V4 预计将于本周正式发布。距离 DeepSeek 上一次发布具有里程碑意义的模型 R1,已经过去了一年多。

这一年里,DeepSeek 没有发布会、没有路演,也很少出现在聚光灯下。但从目前披露的信息来看,V4 并不只是一次常规升级,而更像一次方向性的转向。

不只是升级:V4 是一次多模态与架构选择的合流
从目前流出的信息判断,DeepSeek V4 将是一款原生多模态大模型,支持文本、图片与视频的统一理解与生成。

这意味着,DeepSeek 终于补齐了此前长期被认为是短板的图像与视频能力。在过去,DeepSeek 更像是一位“文字型选手”:推理、代码和数学能力极强,但多模态并非主战场。V4 的出现,显然意在完成这块拼图。

更值得注意的是另一点——芯片适配策略的变化。

多家外媒提到,DeepSeek V4 并未选择在发布前与 英伟达 做深度优化适配,而是优先针对国产 AI 芯片进行调优。这一选择打破了行业惯例。

在过去,几乎所有顶级大模型都会围绕英伟达 GPU 进行性能优化。但 V4 释放出的信号是:即便不以最顶级的 GPU 作为前提,也能跑出一流模型。

客观来说,在预训练阶段,高端 GPU 依然占据主导地位;但如果 V4 在推理阶段实现了对国产芯片的成熟适配,其商业化意义将远超一次模型能力提升。

回看 R1:为什么 DeepSeek 会被反复提起?
要理解 V4 的分量,绕不开去年的 R1。

2025 年 1 月,DeepSeek 几乎“无声”地上线了 R1 推理模型,只附带了一份技术报告。随后发生的事情,至今仍被频繁回顾。

R1 在多项推理基准上达到了与 OpenAI 顶级模型相当甚至更优的水平,而 DeepSeek 公布的训练成本,仅为数百万美元量级。同时,R1 选择了开源。

一周后,DeepSeek App 一度登顶苹果 App Store 免费榜。同一天,美股 AI 板块出现剧烈波动,英伟达单日市值蒸发创下纪录。

那一刻,市场第一次被迫直面一个问题:


如果一家中国公司,能用显著更低的成本,做出同等级别的模型,那巨额基础设施投入的逻辑,还是否成立?

静默的一年,其实是系统性铺垫
R1 之后,DeepSeek 并未急于发布“下一代旗舰”,但这一年并非空转。

从 V3 的持续演进、R1 的多次强化,到稀疏注意力、自验证、条件记忆等研究论文的公开,DeepSeek 在做的,是将推理能力、多模态、长上下文与系统架构逐步融合。

从目前披露的研究成果来看,V4 很可能基于:

更高效的信息流动结构
面向百万级上下文的条件记忆机制
推理与工具调用的深度整合
这些能力并不直接体现在“榜单名次”上,却直接决定模型能否进入真实生产环境。

发布前的争议与舆论噪声
在 V4 即将发布的节点上,海外舆论场也出现了一些紧张信号。

Anthropic 曾公开指控多家中国团队存在“蒸馏”行为,引发争议。与此同时,社区用户也发现 Claude 在多语言环境下出现模型身份混淆的现象——有用户用中文提问,Claude 竟自称“我是 DeepSeek”,引发大量讨论与调侃。

更具戏剧性的是,就在 Anthropic 高调指控的同一天,美国联邦政府宣布所有机构立即停用 Anthropic 技术,五角大楼将其列为“供应链风险”。马斯克在 X 平台直言:“他们怎么敢偷 Anthropic 从人类程序员那里偷来的东西?”

这些事件本身,或许并不足以构成技术判断,但它们反映了一个现实:当竞争进入深水区,技术之外的叙事博弈正在升温。

从“蛮力”到“结构”:一条逐渐清晰的路径
回看 DeepSeek 的发展轨迹,其实非常清晰:

不依赖发布会制造声量
更关注工程效率与系统结构
把资源优先投向“如何跑得更好”,而不是“跑得更大”
在外部环境受限的情况下,这条路径并非权宜之计,而是一种长期选择。

当顶级芯片不再是唯一变量,架构设计、训练策略、推理效率和系统工程能力,开始成为决定性因素。

写在最后
DeepSeek V4 的发布,很可能不会是一个平静的事件。

但比“登不登顶榜单”更重要的问题是:它是否再次证明了一件事——世界级模型,不只有一条通往未来的路。

如果说过去几年,中国 AI 更多是在追赶能力上限,那么从 R1 到 V4,DeepSeek 展示的,是另一种可能性:

在资源受限的前提下,通过结构创新和工程效率,走出一条可持续、可落地的技术路径。

真正值得关注的,或许正是这一点。

相关文章
|
存储 人工智能 缓存
DeepSeek V4全网猜测汇总:四大焦点浮出水面
DeepSeek V4因代码曝光引发热议,全网聚焦发布时间、核心技术、能力成本及生态格局四大焦点,线索源自公开爆料与实测。官方暂未回应,待其首发后可通过LLaMA-Factory Online解锁定制玩法。
930 0
|
6天前
|
自然语言处理 测试技术 API
动动嘴就能编程!阿里云千问Qwen3.5-Omni发布:全模态全球最强,支持113种语言,免费体验
阿里云发布全模态大模型Qwen3.5-Omni官网:https://t.aliyun.com/U/JbblVp 测试全球第一,支持113种语言识别与36种语音合成,首创“音视频Vibe Coding”——对镜头口述需求即可生成APP/网页/游戏代码。免费开放体验,开发者可通过阿里云百炼调用API。
613 2
|
3月前
|
人工智能 自然语言处理 安全
Claude Code 插件登陆 VS Code:开发者迎来 AI 编程新利器
Anthropic正式发布Claude Code——VS Code官方插件,支持多语言智能补全、代码解释、错误诊断与安全重构。隐私优先、长上下文(200K tokens)处理能力强,显著优于Copilot的可解释性与代码质量,已获开发者广泛好评。(239字)
6007 5
|
2月前
|
人工智能 运维 文字识别
DeepSeek V4春节炸场,三大黑科技让Claude和GPT都坐不住了
今儿看到个信息,DeepSeek可能发布V4了。 老金我第一时间测试佐证了一下。 虽说官方没明确公布上线,但是咱可以先来了解下它的 3大创新能力。 DeepSeek作为国产之光(毕竟 价格屠夫),老金我是尤为关注的。 这个模型它不是小更新,是直接对标Claude Opus 4.5和GPT-5的那种 大级别的。 上次DeepSeek R1发布的时候,硅谷那边就已经慌了一波。 这次V4,定位更狠—
|
13天前
|
人工智能 开发框架 机器人
OpenClaw到底是什么?一篇文章讲清楚AI智能体这个概念
OpenClaw是一款开源AI智能体工具,让大模型像人一样操作电脑:自动点击、输入、调用浏览器/邮件/命令行等工具,完成跨应用任务(如整理网页数据、生成报表、发邮件)。它代表“能动手”的AI执行者,区别于仅“动嘴”的聊天机器人。当前仍存速度、稳定性与安全挑战,但已初现未来人机协作新范式。
|
27天前
|
人工智能 机器人 定位技术
不会写代码也能懂:OpenClaw四层架构图解
本文用四张示意图,通俗拆解OpenClaw四大核心层:交互层(多端消息统一翻译)、网关层(路由/排队/调度中枢)、智能体层(会话、上下文、执行与记忆)、执行层(本地/远端节点+插件化技能)。帮你快速定位问题、理解消息全流程,零代码也能心中有图。
|
1月前
|
SQL 人工智能 自然语言处理
别让RAG成为“人工智障”:用Agent Skills做知识库检索,究竟强在哪?
本文剖析传统RAG的三大痛点:检索失误即满盘皆输、长上下文导致信息淹没、静态流程无法适配动态问题;对比引入Anthropic Agent Skills框架的新范式——具备规划、路由与反思能力的“AI研究员”,支持多技能协同、可解释推理与自适应重试。实测显示其在复杂知识任务中相关性、深度与满意度显著提升。
|
1月前
|
机器学习/深度学习 人工智能 监控
阿里除夕开源千问3.5:3970亿参数但只激活170亿,大模型部署成本砍半怎么做到的?
本文探讨 AI 落地深水区的成本与效率难题,解析阿里 Qwen3.5 通过混合注意力、稀疏 MoE 等技术实现性能跃升与降本增效,并对比 Prompt、RAG 与微调的适用场景,指出企业应结合模型特性规划技术路线,借助平台实现 AI 从能用向好用进阶。
1812 5

热门文章

最新文章