梁文锋署名开源"记忆"模块，DeepSeek V4更细节

2026-01-13 17:33

115

就在十几个小时前，DeepSeek发布了一篇新论文，主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》，与北京大学合作完成，作者中同样有梁文锋署名。

论文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

简单总结一波这项新研究要解决的问题：目前大语言模型主要通过混合专家（MoE）来实现稀疏化，这被称为「条件计算」。但是，现有的Transformer缺少原生的知识查找机制，只能被迫通过计算过程低效地模拟检索行为。

针对这一现状，DeepSeek提出了条件记忆（conditional memory），从而与MoE的条件计算互补，并通过引入一个新模块Engram来实现。

目前，模块「Engram」相关的实现已经上传到了GitHub。

项目地址：https://github.com/deepseek-ai/Engram

这让网友们感慨：「DeepSeek is back！」

此外，结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》，我们可以明确的是DeepSeek v4的模样愈发清晰，就等上新了！

除了条件计算（MoE），LLM还需要一个独立的条件记忆Engram

MoE模型通过条件计算实现了模型容量的扩展，但现有的Transformer架构缺乏原生的知识查找原语，只能通过计算过程低效地模拟检索行为。

为了解决这一问题，DeepSeek提出了条件记忆（conditional memory）这一与条件计算互补的稀疏化维度，并通过Engram模块加以实现。Engram在经典𝑁-gram嵌入的基础上进行了现代化改造，使其能够以O(1)时间复杂度完成知识查找。

通过形式化提出稀疏性分配问题，DeepSeek还发现了一条呈U型的扩展规律，用以刻画神经计算（MoE）与静态记忆（Engram）之间的最优权衡关系。

在这一规律的指导下，DeepSeek将Engram扩展至270亿参数规模，并在严格等参数量、等FLOPs的条件下，其整体性能显著优于纯MoE基线模型。

尤为值得注意的是，尽管记忆模块本身主要被用于提升知识检索能力（如MMLU提升+3.4、CMMLU提升+4.0），但DeepSeek观察到其在通用推理能力（如BBH提升+5.0、ARC-Challenge提升+3.7）以及代码与数学推理任务（HumanEval提升+3.0、MATH提升+2.4）上带来了更为显著的增益。

进一步的分析表明，Engram能够将静态知识的重建负担从模型的浅层中剥离出来，从而有效加深网络用于复杂推理的有效深度。此外，通过将局部依赖关系交由查表机制处理，Engram释放了注意力机制的容量，使其能够更专注于全局上下文建模，从而显著提升了长上下文检索能力（例如Multi-Query NIAH的准确率从84.2提升至97.0）。

最后，Engram在系统层面同样展现出基础设施感知的高效性：其确定性的寻址方式支持在运行时从主机内存进行预取，几乎不会带来额外的性能开销。

DeepSeek认为，条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语。

Engram架构如下，其设计目标是在结构上将静态模式存储与动态计算过程从Transformer主干网络中分离出来，从而对其进行增强。该模块对序列中每一个位置依次执行两个功能阶段：检索与融合。

在运行过程中，DeepSeek首先对当前位置的后缀N-gram进行提取与压缩，并通过哈希机制以确定性的方式检索对应的静态嵌入向量。随后，这些被检索到的嵌入会在当前隐藏状态的调制下进行动态调整，并进一步通过一个轻量级卷积操作加以精炼。最后，Engram与多分支架构进行集成。

好文章，需要你的鼓励