4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

分离式 LLM 推理部署:在 Kubernetes 上拆分 Prefill 与解码阶段

发布时间:2026-06-12 09:30:24

随着 LLM 推理工作负载日益复杂,单一的推理服务进程开始触及瓶颈。Prefill 和解码阶段具有截然不同的计算特征,但传统部署方式强制它们在相同硬件上运行,导致 GPU 利用率低下且扩缩容缺乏灵活性。

分离式推理服务通过将推理管线拆分为独立的 Prefill、解码和路由阶段来解决这一问题,每个阶段作为独立服务运行,可以独立资源配置和扩缩容。Prefill 阶段计算密集型,适合高 FLOPS GPU;解码阶段受内存带宽限制,需要快速 HBM 访问;路由层负责请求分发和 KV 缓存管理。

分离式架构带来三大优势:各阶段可按需匹配 GPU 资源和优化策略、独立响应不同流量模式、以及更高的 GPU 利用率。NVIDIA Dynamo 和 llm-d 等框架已实现这一模式。

在 Kubernetes 上部署多 Pod 推理工作负载时,调度器的放置策略直接影响性能。将张量并行组的 Pod 放置在同一机架并通过高速 NVLink 互联,与跨机架部署相比可能产生巨大的性能差异。NVIDIA 的 Kubernetes 设备插件和拓扑感知调度可确保 GPU 工作负载感知节点间的 GPU 互联拓扑。

对于大规模推理部署而言,分离式架构结合 Kubernetes 的弹性调度能力,使得 AI 基础设施可以像微服务一样灵活编排。Prefill 集群可以在处理长上下文提示时快速扩容,解码集群可以根据并发用户数独立伸缩,整体 GPU 利用率可提升 2-3 倍。