DeepSeek扔出大杀器，暴力优化AI架构

2026-01-03 20:16

144

DeepSeek送上2026年新年第一个王炸。这次的创新是，mHC（流形约束超连接）新架构。

在这篇论文中，DeepSeek提出了流形约束超连接（mHC），将矩阵投影到约束流形上优化残差连接空间，从而确保稳定性，彻底颠覆了传统AI架构认知——可以扩大残差流通道宽度（residual stream width），而在算力和内存上的代价却微乎其微。

继Hyper-Connections（HC）开辟「残差连接宽度可扩展」路线之后，mHC直接把这一思路推上实用化的快车道。

DeepSeek这次直击AI痛点，给同行上了一课！

这简直是为「模型优化玩家」量身打造的王牌秘方。

过去，超连接（hyper-connections）更多只是学术圈的小众尝试。

而现在，DeepSeek直接把它升级为基础架构的核心设计要素。

这也正是拥趸一直以来对DeepSeek的期待：数学上的洞察力+硬件层面的极致优化。顶级大语言模型（LLM）中，ResNet结构或许即将被淘汰。

与HC中近3000的最大增益幅度相比，mHC将其降低了三个数量级。

这些结果表明，mHC相比HC显著增强了传播稳定性，确保了前向信号与后向梯度的稳定流动。

此外，团队观察到，对于HC，当最大增益较大时，其他值也往往显著，这表明所有传播路径普遍存在不稳定性。相比之下，mHC始终产生稳定的结果。

好文章，需要你的鼓励