DualPath:DeepSeek联合北大清华提出双路径KV-Cache加载架构,Agent推理吞吐量提升1.87倍
2026-02-27 10:22
35
一句话总结
DualPath是由DeepSeek-AI、北京大学和清华大学联合提出的LLM推理系统,通过双路径KV-Cache加载打破了Agent场景下存储带宽瓶颈,离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍。

这篇论文在解决什么问题?
随着LLM从单轮对话走向Agent(智能体)模式,推理工作负载发生了根本性变化。Agent需要与外部环境进行多轮交互——调用终端命令、执行代码、获取人类反馈——单次Agent运行可能涉及上百轮对话,上下文长度可达数万甚至百万token。
这种场景的核心特征是:每轮新增token很少(平均429个),但需要加载的历史KV-Cache极大(平均上下文32.7k token),KV-Cache命中率高达98.7%。换句话说,GPU大部分时间不是在"算",而是在"等数据从存储系统搬进来"。
在主流的Prefill-Decode(PD)分离架构中,所有KV-Cache都从远程存储加载到Prefill引擎。问题来了:Prefill引擎的存储网卡(SNIC)被打满(100%利用率),而Decode引擎的存储网卡几乎完全闲置。Prefill引擎的GPU利用率只有约40%,大量算力被浪费。
更糟的是,硬件发展趋势也在加剧这一问题。从NVIDIA Ampere到Blackwell,GPU算力增长了28.8倍,但网卡带宽只增长了2倍,HBM容量只增长了2.4倍——I/O与计算的比值下降了14.4倍。
DualPath的核心创新点
创新点一:双路径KV-Cache加载架构
这是论文最核心的贡献。DualPath在传统的"存储→Prefill"路径之外,新增了一条"存储→Decode→Prefill"路径:
- PE读路径(传统路径):KV-Cache从持久化存储直接读入Prefill引擎的DRAM缓冲区,再按层加载到GPU进行计算
- DE读路径(新增路径):KV-Cache先从存储读入Decode引擎的DRAM缓冲区,再通过高带宽RDMA计算网络传输给Prefill引擎
关键洞察在于:每个节点有8张400Gbps的计算网卡(CNIC),但只有1张400Gbps的存储网卡(SNIC)。计算网络的聚合带宽是存储网络的8倍,且计算网络在模型推理期间呈现间歇性突发模式(亚毫秒级的集合通信操作之间存在大量空闲时间),完全有能力承载额外的KV-Cache传输流量。
论文还给出了严格的"无瓶颈"数学分析:在常见的8GPU节点、1个SNIC配置下,DualPath在P/D比为1/7到7/2的范围内都不会在计算网卡或DRAM上产生新的瓶颈,覆盖了绝大多数实际部署配置。
创新点二:CNIC中心化的流量管理
双路径引入了额外的数据传输流量,一个关键挑战是如何避免KV-Cache传输干扰模型推理中延迟敏感的集合通信操作(如Expert Parallel的AllToAll、Tensor Parallel的AllGather/ReduceScatter)。
DualPath的解决方案非常巧妙——将所有GPU内存拷贝操作(包括本地H2D/D2H)都通过CNIC进行,而不使用传统的CUDA拷贝引擎或GPUDirect Storage:
- 统一流量入口:所有进出GPU的数据都走CNIC,通过GPUDirect RDMA数据路径
- VL级QoS隔离:利用InfiniBand虚拟通道(VL)机制,模型推理通信分配高优先级VL(占99%带宽),KV-Cache传输分配低优先级VL(占1%带宽,防止饥饿)
- 低延迟优势:单次RDMA Write提交仅需约1μs(几个mmio寄存器写入),而cudaMemcpyAsync的提交延迟为5-7μs,且RDMA支持doorbell batching进一步摊薄开销
这个设计的本质是:用CNIC作为所有PCIe流量的统一QoS调度器,从而在硬件层面保证推理通信不受KV-Cache传输影响。论文指出,这是目前唯一已知的实用方法来确保KV-Cache加载/存储不降低关键模型执行通信的性能。
创新点三:自适应请求调度算法
有了双路径之后,如何在线决定每个请求走哪条路径成为一个关键问题。DualPath设计了一套两级调度策略:
引擎间调度——决定请求分配给哪个(PE, DE)对,以及选择走PE读还是DE读:
- PE调度将引擎分为三类:过载引擎(直接跳过)、短磁盘读队列引擎(优先分配)、长磁盘读队列引擎(备选分配)。以token总数为代理指标平衡GPU和NIC负载
- DE调度采用两阶段:先跨组平衡token总量,再组内平衡HBM和请求数
- KV-Cache读任务调度:选择读队列较短的一侧执行读取
引擎内调度——决定每次前向计算中包含哪些请求:
- 引入"计算配额"(Compute Quota)机制:通过预估注意力层执行时间,使用FIFO打包 + 二分搜索的分块预填充策略,确保数据并行组内各GPU的注意力层执行时间接近一致,最小化同步气泡
调度算法将存储NIC流量的最大/平均比从1.53降至1.18(接近完美平衡的1.0),注意力层执行时间的不平衡度在任务前期低至1.06。
关键实验结果
论文在DeepSeek-V3.2 660B、DS 27B和Qwen2.5-32B三个模型上,使用从真实Agent RL训练工作负载收集的数据集进行了评估:
离线推理(RL训练的rollout阶段):
- DS 660B上相比Basic提升最高1.87倍,且性能接近Oracle(零I/O开销的理论上限)
- DS 27B上提升最高1.78倍
- DualPath在更大batch size、更长上下文、更短append/generation长度时优势更明显
在线服务:
- DS 660B的APS(Agent到达率)容量提升2.25倍,DS 27B提升1.67倍
- 在线服务吞吐量平均提升1.96倍,且不违反SLO(TTFT ≤ 4秒,TPOT ≤ 50ms)
大规模可扩展性:
- 从48GPU(2P4D)扩展到1152GPU(48P96D),JCT几乎不变(3167s vs 3201s),实现了近线性扩展
- 在线服务从2P4D扩展到44P88D,吞吐量提升22倍,延迟基本保持不变
消融实验:
- 层级预填充贡献约17%的JCT降低
- 双路径加载贡献约38%的JCT降低(核心贡献)
- 调度算法额外贡献约8%的JCT降低
- 三者叠加共计45.62%的JCT降低
DualPath与现有方案的本质区别
维度 | Mooncake(分布式DRAM缓存) | DualPath |
|---|---|---|
KV-Cache存储介质 | DRAM池 | SSD持久化存储 |
内存开销 | 大(占用大量DRAM) | 小(仅需少量DRAM缓冲区) |
RL训练兼容性 | 差(DRAM被训练状态占用) | 好(不依赖大量DRAM) |
大工作集成本效益 | 低(DRAM昂贵) | 高(SSD成本低得多) |
瓶颈解决思路 | 提高缓存命中率 | 均衡利用全部存储带宽 |
技术意义与展望
DualPath的核心思想——将存储I/O从单一瓶颈资源转变为全局可调度的带宽池——对整个LLM推理系统设计具有启发意义。随着Agent应用成为主流,I/O-bound推理将越来越普遍,如何高效利用异构网络带宽将成为系统优化的关键方向。
论文也坦诚地指出了未来工作方向:更自适应的并行度和P/D比配置机制、将单个请求拆分到两条路径同时读取、以及在大规模部署下进一步降低TTFT百分位数。
论文信息:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference,arXiv:2602.21548v2,2026年2月。作者来自北京大学、清华大学和DeepSeek-AI。
论文地址:https://arxiv.org/abs/2602.21548
0
好文章,需要你的鼓励
