NVIDIA Dynamo Snapshot：将 Kubernetes 推理冷启动从分钟级降至秒级

发布时间：2026-06-11 09:45:56

在生产推理部署中，请求量随时间波动，需要推理副本弹性扩缩容。然而在 Kubernetes 上冷启动推理工作负载可能需要几分钟，这段时间 GPU 已分配但处于空闲状态，不产生任何 token，也不服务任何请求。这种延迟在流量高峰时可能导致 SLA 违规。

NVIDIA 最新推出的 Dynamo Snapshot 正是为解决冷启动问题而设计。它基于检查点/恢复方法，能够在 Kubernetes 上实现接近物理极限的推理工作负载启动速度。其核心是结合 cuda-checkpoint（保存 GPU 设备状态）和 CRIU（保存主机 CPU 侧状态）两种技术。

cuda-checkpoint 负责将 CUDA 上下文、流、设备内存和虚拟地址映射等 GPU 端状态序列化到 CPU 内存中。而 CRIU（Checkpoint/Restore in Userspace）则遍历 Linux 内核的数据结构，将进程树的 CPU 内存、线程、文件描述符和命名空间等主机端状态序列化到磁盘存储。

在 Kubernetes 环境中，Dynamo Snapshot 通过一个特权 DaemonSet（snapshot-agent）来管理检查点和恢复流程，可通过 Helm Chart 安装。每个节点上的 agent 负责处理 runc 管理容器的检查点和恢复，无需修改 runc 本身。

进行检查点时，agent 等待工作负载就绪探测通过后，依次调用 cuda-checkpoint 和 CRIU 将状态写入共享存储。恢复时，agent 启动一个轻量级占位 Pod，恢复 overlay 文件系统和 CRIU/CUDA 检查点，恢复后的工作线程直接从被检查点的精确指令位置继续执行，完全感知不到检查点或恢复操作的发生。

对于大规模推理部署而言，Dynamo Snapshot 的意义在于将扩缩容时间从分钟级缩短到接近秒级，使集群可以在流量波动时快速响应，大幅降低 SLA 违规风险，同时提高 GPU 利用率。

上一篇：NVIDIA Model Optimizer 模型量化实战：FP8 训练后量化降低显存占用下一篇：没有了！

NVIDIA Dynamo Snapshot：将 Kubernetes 推理冷启动从分钟级降至秒级

北京欣泉科技有限公司

电话：4006605680