架构级大改浮出水面？DeepSeek 神秘新模型代码曝光，V4 或在春节前后登场-阿里云开发者社区

架构级大改浮出水面？DeepSeek 神秘新模型代码曝光，V4 或在春节前后登场

2026-01-22 420

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在DeepSeek-R1发布一周年之际，其GitHub仓库FlashMLA突现神秘MODEL1标识，独立于V3.2架构，或为传闻中的DeepSeek V4雏形。代码显示其采用稀疏与稠密并行推理、FP8+BF16混合精度、512维标准注意力及Blackwell架构深度适配，并浮现“Engram”记忆机制线索，暗示模型从架构到硬件协同的系统性重构，预示下一代AI竞争将转向全栈效能比拼。

在 DeepSeek-R1 发布一周年之际，一段并非官方宣发、却分量十足的线索突然在技术社区引爆讨论。

DeepSeek 位于 GitHub 上的 FlashMLA 代码仓库，近期更新中被开发者发现出现了一个全新的模型标识符——MODEL1。它并非对现有模型的小幅扩展，而是以“独立分支”的方式，与当前使用的 DeepSeek-V3.2（代码中标记为 V32）并列存在。

从代码结构、算子设计以及硬件适配方向来看，这个 MODEL1 很可能不是一次常规升级，而是一场从模型架构到推理机制的系统性重构。业内普遍猜测，它极有可能就是传闻中的 DeepSeek V4 内部工程版本。

更巧合的是，这一代码动向，与外界流传的“DeepSeek 或将在农历新年前后发布新一代旗舰模型”的时间点高度重合。

MODEL1 现身：并非 V3 迭代，而是全新技术路线
从 FlashMLA 仓库的更新记录来看，MODEL1 在代码层级上并未继承 V3 系列，而是作为全新模型路径存在。

在 114 个相关文件中，至少有 28 处直接引用了 MODEL1，并且在推理逻辑、测试脚本、算子实现等关键模块中，均采用了与现有模型不同的处理方式。

这意味着，DeepSeek 很可能正在为下一代模型重新定义一整套底层机制，而不仅是调参或规模扩张。

关键变化一：稀疏 + 稠密并行的推理新范式
最直观的变化，出现在推理计算策略上。

在最新提交中，测试目录新增了两个重要文件：

稀疏解码测试
稠密解码测试
这直接表明，MODEL1 已经具备在推理阶段同时支持稀疏与稠密计算路径的能力。

更值得注意的是它的混合精度设计：

KV Cache 使用 FP8 精度存储，显著降低显存占用
矩阵乘法仍保留 bfloat16 精度，以维持计算稳定性
这种设计思路非常明确：在不牺牲核心计算精度的前提下，通过“选择性稀疏化”释放内存带宽，为超长上下文处理腾出空间。

这并非简单的工程优化，而是直接指向下一代模型在推理效率和上下文规模上的核心竞争力。

关键变化二：MLA 架构重塑，注意力维度全面调整
另一个引发讨论的点，来自注意力头参数维度的变化。

在公共头文件中，MODEL1 的注意力维度被设定为 512，而 DeepSeek V3.2 使用的是 576 维。

这背后并不是“缩减参数”这么简单。

V3 系列采用的是一种非对称设计：

128 维用于旋转位置编码
448 维用于隐层表达
而 MODEL1 统一切换到标准化的 512 维配置，意味着 MLA（多头隐式注意力）结构已被重新设计。

这种调整可能带来两种可能性：

隐层压缩与信息密度有实质性突破
架构主动向硬件友好型布局靠拢，为新一代 GPU 做准备
无论哪种，都指向一个结论：这是一次架构级，而非参数级的演进。

关键变化三：为 Blackwell 架构“量身定制”的优化路线
MODEL1 的代码中，出现了大量只服务于英伟达 Blackwell（SM100）架构的接口与算子实现。

包括但不限于：

专用 Cutlass 前向算子
明确要求 CUDA 12.9 才能在 B200 GPU 上运行
针对 Blackwell 指令集的调度与内存访问优化
从测试数据来看，即便在尚未完全调优的状态下：

B200 上的稀疏 MLA 算子性能已达到 350 TFLOPS
当前主流 H800 上，稠密 MLA 吞吐量可达 660 TFLOPS
这释放了一个强烈信号： DeepSeek 已不再是“模型写完再适配硬件”，而是与下一代算力平台同步演进。

Engram 机制浮现：记忆与推理协同的下一步？
在代码注释中，还出现了一个耐人寻味的关键词——Engram（记忆印记）。

虽然具体实现尚未完全公开，但从其在分布式模块中的部署位置推测，它可能与以下方向有关：

高级 KV 压缩
分布式记忆调度
推理阶段的长期状态保留
不久前，DeepSeek 团队刚刚发布过 Engram 相关论文，讨论的是可扩展记忆与推理协同机制。

如果该机制最终被完整整合进 V4，那么这很可能意味着：模型不只是“算得更快”，而是在记忆管理层面迈入新阶段。

不只是技术升级，而是一种信号
围绕 MODEL1 的讨论，已经迅速从技术社区扩散到全球 AI 圈。

有人直言，这可能是“下一次改变行业格局的时刻”。也有人将其视为中国开源模型发展路径的一次关键转折。

回看一年前 DeepSeek-R1 发布后的连锁反应—— 它降低了高阶推理的工程门槛，改变了企业对开源模型的信任结构，也让“是否能做到”这个问题，变成了“如何把它做好”。

如果 MODEL1 真的是 V4 的雏形，那么可以预见的是：下一代竞争，已经不再只是参数规模或榜单分数，而是架构、推理效率、硬件协同与工程可落地性的全面比拼。

DeepSeek，显然已经提前进入了这一阶段。

架构级大改浮出水面？DeepSeek 神秘新模型代码曝光，V4 或在春节前后登场

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

架构级大改浮出水面？DeepSeek 神秘新模型代码曝光，V4 或在春节前后登场

热门文章

最新文章

相关电子书