DeepSeek扔出大杀器,暴力优化AI架构

2026-01-03 20:16
144
DeepSeek送上2026年新年第一个王炸。这次的创新是,mHC(流形约束超连接)新架构。

在这篇论文中,DeepSeek提出了流形约束超连接(mHC),将矩阵投影到约束流形上优化残差连接空间,从而确保稳定性,彻底颠覆了传统AI架构认知——可以扩大残差流通道宽度(residual stream width),而在算力和内存上的代价却微乎其微。
继Hyper-Connections(HC)开辟「残差连接宽度可扩展」路线之后,mHC直接把这一思路推上实用化的快车道。
DeepSeek这次直击AI痛点,给同行上了一课!
这简直是为「模型优化玩家」量身打造的王牌秘方。
过去,超连接(hyper-connections)更多只是学术圈的小众尝试。
而现在,DeepSeek直接把它升级为基础架构的核心设计要素。
这也正是拥趸一直以来对DeepSeek的期待:数学上的洞察力+硬件层面的极致优化。顶级大语言模型(LLM)中,ResNet结构或许即将被淘汰。
与HC中近3000的最大增益幅度相比,mHC将其降低了三个数量级。
这些结果表明,mHC相比HC显著增强了传播稳定性,确保了前向信号与后向梯度的稳定流动。
此外,团队观察到,对于HC,当最大增益较大时,其他值也往往显著,这表明所有传播路径普遍存在不稳定性。相比之下,mHC始终产生稳定的结果。
0
好文章,需要你的鼓励