从贝叶斯视角解读Transformer的内部几何：mHC的流形约束与大模型训练稳定性-阿里云开发者社区

Scaling Laws 已经成为深度学习领域的共识：更大的模型配合更多数据效果往往更好。但当参数量攀升至百亿乃至千亿级别时一个棘手的问题是：训练不稳定性。

现代大语言模型动辄堆叠数十甚至上百层，残差连接、跳跃连接、跨层路由机制层出不穷。这些架构设计背后的逻辑就是为了改善梯度流、加快收敛、提升参数利用率。但是在实践中这些技在大规模训练时却经常出现问题：损失函数突然飙升、梯度爆炸、表征坍塌、训练动态变得极度脆弱等等。

大语言模型的运作似乎依赖某种内部贝叶斯几何结构，而许多依赖密集捷径的现代架构，恰恰在无意中破坏了这种结构。

近期研究揭示了一个有趣的现象：Transformer内部确实在执行贝叶斯推理：只不过不是符号化的方式而是几何化的。残差流承载信念状态的累积，注意力机制负责路由概率证据，内部表征则沿着以不确定性为参数的低维流形演化。一旦架构改动扰乱了这种几何结构，模型的可训练性和可靠性都会受到影响。

流形约束超连接（Manifold-Constrained Hyper-Connections，简称mHC）正是在这个背景下提出的。它并非单纯的优化技巧，而是一种架构层面的保护机制，确保模型在扩展过程中维持概率推理所需的内部几何。

接下来的我们将三条近期研究脉络串联起来，讲述一个关于架构、几何与规模化的故事。

Transformer如何用几何实现贝叶斯推理

残差流承载信念状态

不同残差连接模式对应着截然不同的内部信念动态。标准残差连接通过增量式更新维持信念状态的稳定；无约束超连接则引入任意的跨层混合，可能导致信念语义失真；mHC通过强制凸约束恢复稳定性，保护贝叶斯流形不受破坏。

大语言模型到底在"推理"还是仅仅在"模仿"？这个问题在自然语言任务上很难回答因为记忆和推理难以区分。

Aggarwal、Dalal和Misra另辟蹊径，构建了所谓的"贝叶斯风洞"，这是一系列合成任务，真实贝叶斯后验可以精确计算而单纯记忆在理论上不可能奏效[1]。实验结果是：小型Transformer能以接近机器精度的水平复现解析后验而同等容量的MLP差距达几个数量级。

从机制角度来看Transformer将推理过程拆解到不同组件：残差流充当持久的信念状态载体；注意力机制执行基于内容的寻址路由，筛选出信念的相关片段；前馈网络（FFN）则负责数值化的后验更新。

每一层都在精炼而不是覆盖，这种组合式累积与贝叶斯滤波的逻辑类似：先验 → 似然 → 后验 → 新先验。残差连接的恒等保持特性在此至关重要：如果没有的话信念状态就无法在深度方向上稳定演进。

值向量汇聚于低维贝叶斯流形

图 2. 虽然Transformer的值向量定义在高维空间，但训练使它们集中到低维贝叶斯流形上。沿流形移动对应不确定性的递减：随着各层整合更多证据，表征从高熵状态平滑过渡到低熵后验信念。

在行为层面之外，模型内部则呈现出了几何特征[1]。键向量沿近似正交的假设轴排列；查询向量随着证据累积，逐步与这些轴对齐；值向量则分布在一个以后验熵为参数的低维流形上。

当不确定性降低时表征沿流形平滑移动，这时后验熵本身成了几何坐标。

训练过程中还存在一个有意思的时序分离：注意力模式会较早固化下来形成固定的"推理框架"，而值表征持续精炼以提升后验"精度"。也就是说Transformer先学会"该关注什么"之后才逐渐学会"如何精确编码"。

梯度下降暗含EM算法

图 3. 训练过程中注意力与值表征形成正反馈回路。注意力权重为值分配软性重要性，值则通过梯度下降更新以更好服务于关注它们的查询。这种动态酷似隐式EM过程：注意力扮演软分配角色，值充当自适应原型。

这种几何结构为何会“涌现”？

对注意力梯度动态的分析给出了解释[2]。在交叉熵损失下注意力分数与值向量之间存在正反馈循环：注意力会向那些减误差能力高于平均水平的值倾斜，值则朝着最关注它们的查询方向更新。

这与EM算法的结构高度相似：注意力权重相当于E步的软责任分配，值向量更新相当于M步的责任加权原型调整，查询和键则定义了假设框架。

关键在于这是双时间尺度过程：路由先稳定，内容后精炼。整个动态成立的前提是信号传播稳定、梯度有界。激活值一旦爆炸或消失，类EM机制随即瓦解。

所以可以说贝叶斯流形并非偶然产物，它是梯度下降在几何稳定环境中运行的雕刻结果。

密集跨层捷径的风险

恒等映射的隐性价值

标准残差连接非常简单：如果某层学不到有用的东西那么信号就原封不动通过，这确保了深度对应于增量式精炼。

超连接（Hyper-Connections, HC）对残差进行了泛化，拓宽残差流并在层与流之间引入可学习的混合矩阵[3]。表达能力确实增强了，但固定的恒等路径也因此消失。残差混合一旦完全可学习恒等保持便不再有任何保障。

规模放大的累积效应

无约束混合矩阵深度堆叠时，与恒等矩阵的微小偏差会乘法式累积。实践中的表现是：信号极端放大或衰减、梯度爆炸、大型HC模型训练时损失突增[3]。

这些现象不只是优化层面的麻烦，它们预示着表征语义的崩塌。

贝叶斯几何的破坏

贝叶斯推理依赖信念的序贯精炼，无约束跨层混合把来自不同推理阶段的信念状态混在一起仿佛它们本就兼容。

在几何上表征跳离了后验流形；注意力-值的专门化变得飘忽不定；校准精度下降；隐式EM机制失效。密集的跳过链接打破了贝叶斯推理赖以运作的组合结构。

流形约束超连接（mHC）的设计思路

将残差几何投影到双随机矩阵空间

mHC的核心思想是把残差混合矩阵投影到Birkhoff多面体——即双随机矩阵的空间[3]。这类矩阵非负，行和列加总均为1，恒等矩阵恰好位于其中心。

关键属性的恢复

投影约束带来了几项重要保证。范数得以保持，信号不会爆炸也不会消失；输出始终落在先前信念状态的凸包内，实现凸混合；层层堆叠仍能保持类恒等行为，保证组合闭包性。

mHC在保留宽残差流灵活性的同时，重新引入了标准残差连接原本提供的架构保障。

规模化的几何视角

从贝叶斯几何角度审视，mHC的价值不仅在于稳定训练，它保护的是信念更新的内部语义。

模型规模扩大时，微小的几何畸变会不断累积。破坏恒等保持的架构，在指标暴露问题之前，就已经在悄悄侵蚀概率推理能力。

mHC的根本的观察是：

规模化不只是参数量和数据量的堆砌，更是对那些让学习稳定、推理有意义的几何不变量的守护。

如果Transformer确实依靠几何来推理，那么保护这种几何或许是扩展未来模型时最关键也最容易被忽视的挑战。

参考文献

[1] N. Aggarwal, S. R. Dalal, V. Misra. The Bayesian Geometry of Transformer Attention. arXiv:2512.22471 (2025).

[2] N. Aggarwal, S. R. Dalal, V. Misra. Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds. arXiv:2512.22473 (2025).

[3] Z. Xie et al. mHC: Manifold-Constrained Hyper-Connections. arXiv:2512.24880 (2025).

https://avoid.overfit.cn/post/b50b24b81a2146aeb9d711db38971d68

作者：Victor Sletten

从贝叶斯视角解读Transformer的内部几何：mHC的流形约束与大模型训练稳定性