DeepSeek代码库更新引发R2猜测,开发者社区热议"MODEL1"

2026-01-21 11:03
194
就在DeepSeek-R1发布一周年之际,开发者社区发现DeepSeek的FlashMLA开源库出现了一次值得关注的更新:代码中引用了一个名为"MODEL1"的新模型标识。
这很难不让人多想,为了能够春节期间引发讨论,春节前太早就过了,春节前太晚的话全国人民(技术人员会骂),而且大家都得过年,所以有没有可能是春节前一周,大家都先用一用然后吹爆。

根据DeepSeek在2026年1月提交的flashmla库代码变更,可以推断出Model1是DeepSeek下一代旗舰模型DeepSeek-V4的内部开发代号或首个工程版本。以下是根据代码diff提取的技术细节分析:

核心技术创新

硬件架构支持
全面支持英伟达Hopper(SM90)与下一代架构(SM100)
通过FlashMLA代码更新,横跨114个文件中有28处提到MODEL1
与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现

关键技术突破

统一回归512标准维度:优化了模型的核心参数配置
首创"值向量位置感知":在注意力机制上的重要创新
引入Engram机制:条件记忆通过可扩展查找实现,解决Transformer缺乏原生查表记忆的缺陷
DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越
内存优化技术代码差异主要体现在:
KV缓存布局优化
稀疏性处理改进
FP8解码优化
0
好文章,需要你的鼓励