4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

NVIDIA Dynamo Snapshot:将 Kubernetes 推理冷启动从分钟级降至秒级

发布时间:2026-06-11 09:45:56

在生产推理部署中,请求量随时间波动,需要推理副本弹性扩缩容。然而在 Kubernetes 上冷启动推理工作负载可能需要几分钟,这段时间 GPU 已分配但处于空闲状态,不产生任何 token,也不服务任何请求。这种延迟在流量高峰时可能导致 SLA 违规。

NVIDIA 最新推出的 Dynamo Snapshot 正是为解决冷启动问题而设计。它基于检查点/恢复方法,能够在 Kubernetes 上实现接近物理极限的推理工作负载启动速度。其核心是结合 cuda-checkpoint(保存 GPU 设备状态)和 CRIU(保存主机 CPU 侧状态)两种技术。

cuda-checkpoint 负责将 CUDA 上下文、流、设备内存和虚拟地址映射等 GPU 端状态序列化到 CPU 内存中。而 CRIU(Checkpoint/Restore in Userspace)则遍历 Linux 内核的数据结构,将进程树的 CPU 内存、线程、文件描述符和命名空间等主机端状态序列化到磁盘存储。

在 Kubernetes 环境中,Dynamo Snapshot 通过一个特权 DaemonSet(snapshot-agent)来管理检查点和恢复流程,可通过 Helm Chart 安装。每个节点上的 agent 负责处理 runc 管理容器的检查点和恢复,无需修改 runc 本身。

进行检查点时,agent 等待工作负载就绪探测通过后,依次调用 cuda-checkpoint 和 CRIU 将状态写入共享存储。恢复时,agent 启动一个轻量级占位 Pod,恢复 overlay 文件系统和 CRIU/CUDA 检查点,恢复后的工作线程直接从被检查点的精确指令位置继续执行,完全感知不到检查点或恢复操作的发生。

对于大规模推理部署而言,Dynamo Snapshot 的意义在于将扩缩容时间从分钟级缩短到接近秒级,使集群可以在流量波动时快速响应,大幅降低 SLA 违规风险,同时提高 GPU 利用率。