DualPath：DeepSeek联合北大清华提出双路径KV-Cache加载架构，Agent推理吞吐量提升1.87倍

2026-02-27 10:22

一句话总结

DualPath是由DeepSeek-AI、北京大学和清华大学联合提出的LLM推理系统，通过双路径KV-Cache加载打破了Agent场景下存储带宽瓶颈，离线推理吞吐量最高提升1.87倍，在线服务吞吐量平均提升1.96倍。

这篇论文在解决什么问题？

随着LLM从单轮对话走向Agent（智能体）模式，推理工作负载发生了根本性变化。Agent需要与外部环境进行多轮交互——调用终端命令、执行代码、获取人类反馈——单次Agent运行可能涉及上百轮对话，上下文长度可达数万甚至百万token。

这种场景的核心特征是：每轮新增token很少（平均429个），但需要加载的历史KV-Cache极大（平均上下文32.7k token），KV-Cache命中率高达98.7%。换句话说，GPU大部分时间不是在"算"，而是在"等数据从存储系统搬进来"。

在主流的Prefill-Decode（PD）分离架构中，所有KV-Cache都从远程存储加载到Prefill引擎。问题来了：Prefill引擎的存储网卡（SNIC）被打满（100%利用率），而Decode引擎的存储网卡几乎完全闲置。Prefill引擎的GPU利用率只有约40%，大量算力被浪费。

更糟的是，硬件发展趋势也在加剧这一问题。从NVIDIA Ampere到Blackwell，GPU算力增长了28.8倍，但网卡带宽只增长了2倍，HBM容量只增长了2.4倍——I/O与计算的比值下降了14.4倍。

DualPath的核心创新点

创新点一：双路径KV-Cache加载架构

这是论文最核心的贡献。DualPath在传统的"存储→Prefill"路径之外，新增了一条"存储→Decode→Prefill"路径：

PE读路径（传统路径）：KV-Cache从持久化存储直接读入Prefill引擎的DRAM缓冲区，再按层加载到GPU进行计算

DE读路径（新增路径）：KV-Cache先从存储读入Decode引擎的DRAM缓冲区，再通过高带宽RDMA计算网络传输给Prefill引擎

关键洞察在于：每个节点有8张400Gbps的计算网卡（CNIC），但只有1张400Gbps的存储网卡（SNIC）。计算网络的聚合带宽是存储网络的8倍，且计算网络在模型推理期间呈现间歇性突发模式（亚毫秒级的集合通信操作之间存在大量空闲时间），完全有能力承载额外的KV-Cache传输流量。

论文还给出了严格的"无瓶颈"数学分析：在常见的8GPU节点、1个SNIC配置下，DualPath在P/D比为1/7到7/2的范围内都不会在计算网卡或DRAM上产生新的瓶颈，覆盖了绝大多数实际部署配置。

创新点二：CNIC中心化的流量管理

双路径引入了额外的数据传输流量，一个关键挑战是如何避免KV-Cache传输干扰模型推理中延迟敏感的集合通信操作（如Expert Parallel的AllToAll、Tensor Parallel的AllGather/ReduceScatter）。

DualPath的解决方案非常巧妙——将所有GPU内存拷贝操作（包括本地H2D/D2H）都通过CNIC进行，而不使用传统的CUDA拷贝引擎或GPUDirect Storage：

统一流量入口：所有进出GPU的数据都走CNIC，通过GPUDirect RDMA数据路径

VL级QoS隔离：利用InfiniBand虚拟通道（VL）机制，模型推理通信分配高优先级VL（占99%带宽），KV-Cache传输分配低优先级VL（占1%带宽，防止饥饿）

低延迟优势：单次RDMA Write提交仅需约1μs（几个mmio寄存器写入），而cudaMemcpyAsync的提交延迟为5-7μs，且RDMA支持doorbell batching进一步摊薄开销

这个设计的本质是：用CNIC作为所有PCIe流量的统一QoS调度器，从而在硬件层面保证推理通信不受KV-Cache传输影响。论文指出，这是目前唯一已知的实用方法来确保KV-Cache加载/存储不降低关键模型执行通信的性能。

创新点三：自适应请求调度算法

有了双路径之后，如何在线决定每个请求走哪条路径成为一个关键问题。DualPath设计了一套两级调度策略：

引擎间调度——决定请求分配给哪个（PE, DE）对，以及选择走PE读还是DE读：

PE调度将引擎分为三类：过载引擎（直接跳过）、短磁盘读队列引擎（优先分配）、长磁盘读队列引擎（备选分配）。以token总数为代理指标平衡GPU和NIC负载

DE调度采用两阶段：先跨组平衡token总量，再组内平衡HBM和请求数

KV-Cache读任务调度：选择读队列较短的一侧执行读取

引擎内调度——决定每次前向计算中包含哪些请求：

引入"计算配额"（Compute Quota）机制：通过预估注意力层执行时间，使用FIFO打包 + 二分搜索的分块预填充策略，确保数据并行组内各GPU的注意力层执行时间接近一致，最小化同步气泡

调度算法将存储NIC流量的最大/平均比从1.53降至1.18（接近完美平衡的1.0），注意力层执行时间的不平衡度在任务前期低至1.06。

关键实验结果

论文在DeepSeek-V3.2 660B、DS 27B和Qwen2.5-32B三个模型上，使用从真实Agent RL训练工作负载收集的数据集进行了评估：

离线推理（RL训练的rollout阶段）：

DS 660B上相比Basic提升最高1.87倍，且性能接近Oracle（零I/O开销的理论上限）

DS 27B上提升最高1.78倍

DualPath在更大batch size、更长上下文、更短append/generation长度时优势更明显

在线服务：

DS 660B的APS（Agent到达率）容量提升2.25倍，DS 27B提升1.67倍

在线服务吞吐量平均提升1.96倍，且不违反SLO（TTFT ≤ 4秒，TPOT ≤ 50ms）

大规模可扩展性：

从48GPU（2P4D）扩展到1152GPU（48P96D），JCT几乎不变（3167s vs 3201s），实现了近线性扩展

在线服务从2P4D扩展到44P88D，吞吐量提升22倍，延迟基本保持不变

消融实验：

层级预填充贡献约17%的JCT降低

双路径加载贡献约38%的JCT降低（核心贡献）

调度算法额外贡献约8%的JCT降低

三者叠加共计45.62%的JCT降低

DualPath与现有方案的本质区别

维度	Mooncake（分布式DRAM缓存）	DualPath
KV-Cache存储介质	DRAM池	SSD持久化存储
内存开销	大（占用大量DRAM）	小（仅需少量DRAM缓冲区）
RL训练兼容性	差（DRAM被训练状态占用）	好（不依赖大量DRAM）
大工作集成本效益	低（DRAM昂贵）	高（SSD成本低得多）
瓶颈解决思路	提高缓存命中率	均衡利用全部存储带宽

技术意义与展望

DualPath的核心思想——将存储I/O从单一瓶颈资源转变为全局可调度的带宽池——对整个LLM推理系统设计具有启发意义。随着Agent应用成为主流，I/O-bound推理将越来越普遍，如何高效利用异构网络带宽将成为系统优化的关键方向。

论文也坦诚地指出了未来工作方向：更自适应的并行度和P/D比配置机制、将单个请求拆分到两条路径同时读取、以及在大规模部署下进一步降低TTFT百分位数。

论文信息：DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference，arXiv:2602.21548v2，2026年2月。作者来自北京大学、清华大学和DeepSeek-AI。论文地址：https://arxiv.org/abs/2602.21548

好文章，需要你的鼓励