NVIDIA NIXL 开源发布:统一数据移动库加速分布式推理
发布时间:2026-07-02 16:09:24
部署大语言模型需要大规模分布式推理,这要求在多 GPU 和多节点间高效移动数据。NVIDIA 开源了 Inference Transfer Library——一个供应商无关的数据移动库,专为支持动态复杂的 AI 推理框架而设计。
在解耦式推理环境中,预填充和解码阶段运行在不同 GPU 上,需要高效 KV 缓存传输。在 KV 缓存加载场景中,多轮对话和智能体工作负载可从本地 SSD 和远程存储加载之前的 KV 缓存,而非重新计算。在宽专家并行中,中间激活需要在专家间高效分发和合并。
NIXL 提供统一抽象层,支持跨 GPU 内存、CPU 内存以及从 NVMe 到云对象存储的多级本地和分布式存储的高效数据移动。框架可通过设备侧 API 实现 GPU 发起的超低延迟通信,满足推理工作负载对动态性和弹性的需求。
上一篇:NVIDIA 详解解耦式 LLM 推理:在 Kubernetes 上部署分离式推理工作负载
下一篇:没有了!
