30 行 Python 代码节省数十万美元：NVIDIA nvCOMP 实现 LLM 检查点无损压缩

发布时间：2026-05-20 16:00:00

训练大语言模型需要定期保存检查点，包含模型权重、优化器状态和梯度的完整快照。在大规模训练中，这些检查点体积惊人——70B 模型的单个检查点达 782 GB，且每 15-30 分钟保存一次，成为训练预算中最大的开支项之一。

NVIDIA 的研究表明，在 128 张 Blackwell GPU 上训练 405B 模型时，同步检查点的 GPU 空闲等待成本每月高达 20 万美元。而引入基于 NVIDIA nvCOMP 的无损压缩方案，仅需约 30 行 Python 代码，即可将存储成本降低 5.6 万美元/月。

NVIDIA nvCOMP 是一个 GPU 加速的无损压缩库，在检查点离开 GPU 内存之前就进行压缩，无需 CPU 往返和额外数据移动。该库支持 Zstandard 和 GPU 专用 gANS 格式两种算法。稠密模型压缩比约 1.25-1.27×，MoE 模型可达 1.39-1.40×。

集成只需约 30 行 Python 代码，作为 torch.save/torch.load 的即插即用替代。