架构级大改浮出水面?DeepSeek 神秘新模型代码曝光,V4 或在春节前后登场

简介: 在DeepSeek-R1发布一周年之际,其GitHub仓库FlashMLA突现神秘MODEL1标识,独立于V3.2架构,或为传闻中的DeepSeek V4雏形。代码显示其采用稀疏与稠密并行推理、FP8+BF16混合精度、512维标准注意力及Blackwell架构深度适配,并浮现“Engram”记忆机制线索,暗示模型从架构到硬件协同的系统性重构,预示下一代AI竞争将转向全栈效能比拼。

在 DeepSeek-R1 发布一周年之际,一段并非官方宣发、却分量十足的线索突然在技术社区引爆讨论。

875192eb-70ef-42cb-a6ed-231a1395b614.png

DeepSeek 位于 GitHub 上的 FlashMLA 代码仓库,近期更新中被开发者发现出现了一个全新的模型标识符——MODEL1。它并非对现有模型的小幅扩展,而是以“独立分支”的方式,与当前使用的 DeepSeek-V3.2(代码中标记为 V32)并列存在。

从代码结构、算子设计以及硬件适配方向来看,这个 MODEL1 很可能不是一次常规升级,而是一场从模型架构到推理机制的系统性重构。业内普遍猜测,它极有可能就是传闻中的 DeepSeek V4 内部工程版本。

更巧合的是,这一代码动向,与外界流传的“DeepSeek 或将在农历新年前后发布新一代旗舰模型”的时间点高度重合。

MODEL1 现身:并非 V3 迭代,而是全新技术路线
从 FlashMLA 仓库的更新记录来看,MODEL1 在代码层级上并未继承 V3 系列,而是作为全新模型路径存在。

在 114 个相关文件中,至少有 28 处直接引用了 MODEL1,并且在推理逻辑、测试脚本、算子实现等关键模块中,均采用了与现有模型不同的处理方式。

这意味着,DeepSeek 很可能正在为下一代模型重新定义一整套底层机制,而不仅是调参或规模扩张。

关键变化一:稀疏 + 稠密并行的推理新范式
最直观的变化,出现在推理计算策略上。

在最新提交中,测试目录新增了两个重要文件:

稀疏解码测试
稠密解码测试
这直接表明,MODEL1 已经具备在推理阶段同时支持稀疏与稠密计算路径的能力。

更值得注意的是它的混合精度设计:

KV Cache 使用 FP8 精度存储,显著降低显存占用
矩阵乘法仍保留 bfloat16 精度,以维持计算稳定性
这种设计思路非常明确: 在不牺牲核心计算精度的前提下,通过“选择性稀疏化”释放内存带宽,为超长上下文处理腾出空间。

这并非简单的工程优化,而是直接指向下一代模型在推理效率和上下文规模上的核心竞争力。

关键变化二:MLA 架构重塑,注意力维度全面调整
另一个引发讨论的点,来自注意力头参数维度的变化。

在公共头文件中,MODEL1 的注意力维度被设定为 512,而 DeepSeek V3.2 使用的是 576 维。

这背后并不是“缩减参数”这么简单。

V3 系列采用的是一种非对称设计:

128 维用于旋转位置编码
448 维用于隐层表达
而 MODEL1 统一切换到标准化的 512 维配置,意味着 MLA(多头隐式注意力)结构已被重新设计。

这种调整可能带来两种可能性:

隐层压缩与信息密度有实质性突破
架构主动向硬件友好型布局靠拢,为新一代 GPU 做准备
无论哪种,都指向一个结论:这是一次架构级,而非参数级的演进。

关键变化三:为 Blackwell 架构“量身定制”的优化路线
MODEL1 的代码中,出现了大量只服务于英伟达 Blackwell(SM100) 架构的接口与算子实现。

包括但不限于:

专用 Cutlass 前向算子
明确要求 CUDA 12.9 才能在 B200 GPU 上运行
针对 Blackwell 指令集的调度与内存访问优化
从测试数据来看,即便在尚未完全调优的状态下:

B200 上的稀疏 MLA 算子性能已达到 350 TFLOPS
当前主流 H800 上,稠密 MLA 吞吐量可达 660 TFLOPS
这释放了一个强烈信号: DeepSeek 已不再是“模型写完再适配硬件”,而是与下一代算力平台同步演进。

Engram 机制浮现:记忆与推理协同的下一步?
在代码注释中,还出现了一个耐人寻味的关键词——Engram(记忆印记)。

虽然具体实现尚未完全公开,但从其在分布式模块中的部署位置推测,它可能与以下方向有关:

高级 KV 压缩
分布式记忆调度
推理阶段的长期状态保留
不久前,DeepSeek 团队刚刚发布过 Engram 相关论文,讨论的是可扩展记忆与推理协同机制。

如果该机制最终被完整整合进 V4,那么这很可能意味着: 模型不只是“算得更快”,而是在记忆管理层面迈入新阶段。

不只是技术升级,而是一种信号
围绕 MODEL1 的讨论,已经迅速从技术社区扩散到全球 AI 圈。

有人直言,这可能是“下一次改变行业格局的时刻”。 也有人将其视为中国开源模型发展路径的一次关键转折。

回看一年前 DeepSeek-R1 发布后的连锁反应—— 它降低了高阶推理的工程门槛,改变了企业对开源模型的信任结构,也让“是否能做到”这个问题,变成了“如何把它做好”。

如果 MODEL1 真的是 V4 的雏形,那么可以预见的是: 下一代竞争,已经不再只是参数规模或榜单分数,而是架构、推理效率、硬件协同与工程可落地性的全面比拼。

DeepSeek,显然已经提前进入了这一阶段。

相关文章
|
存储 人工智能 缓存
DeepSeek V4全网猜测汇总:四大焦点浮出水面
DeepSeek V4因代码曝光引发热议,全网聚焦发布时间、核心技术、能力成本及生态格局四大焦点,线索源自公开爆料与实测。官方暂未回应,待其首发后可通过LLaMA-Factory Online解锁定制玩法。
928 0
|
2月前
|
人工智能 运维 文字识别
DeepSeek V4春节炸场,三大黑科技让Claude和GPT都坐不住了
今儿看到个信息,DeepSeek可能发布V4了。 老金我第一时间测试佐证了一下。 虽说官方没明确公布上线,但是咱可以先来了解下它的 3大创新能力。 DeepSeek作为国产之光(毕竟 价格屠夫),老金我是尤为关注的。 这个模型它不是小更新,是直接对标Claude Opus 4.5和GPT-5的那种 大级别的。 上次DeepSeek R1发布的时候,硅谷那边就已经慌了一波。 这次V4,定位更狠—
|
4月前
|
人工智能 Rust 运维
这个神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
加我进AI讨论学习群,公众号右下角“联系方式”文末有老金的 开源知识库地址·全免费
8389 21
|
1月前
|
人工智能 自然语言处理 供应链
DeepSeek V4 本周发布,英伟达首次被“跳过”:中国 AI 换了一条路
过去一年,全球AI竞相发布大模型,DeepSeek却保持“静默”。本周将发布的V4并非简单升级:它原生支持文本、图像与视频多模态,并优先适配国产AI芯片,标志从“蛮力堆算力”转向“结构创新”。继低成本高性能量产模型R1后,V4延续其工程效率路线,探索资源受限下的可持续AI路径。
|
4月前
|
人工智能 运维 安全
技术深析快手直播安全事件:为什么大量违规直播“关不掉”?
快手直播安全事件暴露了高并发下账号权限、风控与审核系统的系统性失效。对测试开发而言,需从功能验证转向系统性防控,强化极端场景测试、高负载审核链路验证及熔断机制演练,提升对复杂风险的预判与拦截能力。
|
3月前
|
数据采集 JavaScript 前端开发
如何解决爬虫绕过 IP 限制难题?
本文介绍五种主流防爬虫技术:IP限制、User-Agent识别、验证码、动态页面渲染与数据加密,分析其原理、效果及局限性,助力网站管理员因地制宜构建安全防线,兼顾防护效果与用户体验。
546 21
如何解决爬虫绕过 IP 限制难题?
|
存储 网络安全 数据安全/隐私保护
Docker harbor私有仓库部署与管理-2
Docker harbor私有仓库部署与管理
546 0
|
3月前
|
安全 测试技术 API
MiniMax 开源新评测集:定义Coding Agent 的生产级标准
Coding Agent常因“过程违规”遭诟病,如无视指令、破坏规范。MiniMax推出OctoCodingBench,首创面向工程可靠性的过程评估体系,揭示当前模型在多规则协同下成功率极低,呼吁行业关注“过程正确性”,推动Agent从能用走向可用。
557 5
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪
当AI模型规模不断扩张,一个根本性问题愈发凸显:宝贵的算力是否被浪费在了本应“记住”而非“推算”的任务上?DeepSeek最新披露的Engram技术,正是对这一痛点的结构性回应。它试图将事实性记忆从昂贵的连续神经网络计算中剥离,转向确定性的高效查找,为大模型架构开辟了一条全新的“稀疏性”优化路径。这或许意味着,下一代模型的竞争焦点,正从参数规模转向计算质量的重新分配。