分离式 LLM 推理部署：在 Kubernetes 上拆分 Prefill 与解码阶段

发布时间：2026-06-12 09:30:24

随着 LLM 推理工作负载日益复杂，单一的推理服务进程开始触及瓶颈。Prefill 和解码阶段具有截然不同的计算特征，但传统部署方式强制它们在相同硬件上运行，导致 GPU 利用率低下且扩缩容缺乏灵活性。

分离式推理服务通过将推理管线拆分为独立的 Prefill、解码和路由阶段来解决这一问题，每个阶段作为独立服务运行，可以独立资源配置和扩缩容。Prefill 阶段计算密集型，适合高 FLOPS GPU；解码阶段受内存带宽限制，需要快速 HBM 访问；路由层负责请求分发和 KV 缓存管理。

分离式架构带来三大优势：各阶段可按需匹配 GPU 资源和优化策略、独立响应不同流量模式、以及更高的 GPU 利用率。NVIDIA Dynamo 和 llm-d 等框架已实现这一模式。

在 Kubernetes 上部署多 Pod 推理工作负载时，调度器的放置策略直接影响性能。将张量并行组的 Pod 放置在同一机架并通过高速 NVLink 互联，与跨机架部署相比可能产生巨大的性能差异。NVIDIA 的 Kubernetes 设备插件和拓扑感知调度可确保 GPU 工作负载感知节点间的 GPU 互联拓扑。

对于大规模推理部署而言，分离式架构结合 Kubernetes 的弹性调度能力，使得 AI 基础设施可以像微服务一样灵活编排。Prefill 集群可以在处理长上下文提示时快速扩容，解码集群可以根据并发用户数独立伸缩，整体 GPU 利用率可提升 2-3 倍。

上一篇：NVIDIA TensorRT LLM AutoDeploy 发布：自动编译 PyTorch 模型为优化推理引擎下一篇：没有了！

分离式 LLM 推理部署：在 Kubernetes 上拆分 Prefill 与解码阶段

北京欣泉科技有限公司

电话：4006605680