NVIDIA 发布模型量化新工具：Model Optimizer 实现高效 AI 推理优化

发布时间：2026-05-19 17:12:58

模型量化是降低显存占用并提升消费级设备推理性能的有效方法。通过降低计算和内存需求的同时保持模型质量，量化帮助 AI 模型在资源受限的环境中更高效地运行。NVIDIA Model Optimizer 库整合了最先进的模型优化技术，用于压缩和加速 AI 模型。

ModelOpt 支持多种优化技术，包括量化、蒸馏、剪枝、投机解码和稀疏化。它接受 Hugging Face、PyTorch 或 ONNX 格式的模型作为输入，提供 Python API 使用户能够轻松组合不同的优化技术，生成优化后的检查点。

该库支持高性能量化格式如 FP4、FP8、INT8 和 INT4，以及包括 SmoothQuant、AWQ、SVDQuant 和 Double Quantization 在内的先进算法。同时支持训练后量化和量化感知训练两种方法，为用户提供灵活的选择。

以 CLIP 视觉语言模型为例，使用 ModelOpt 进行 FP8 训练后量化，通过在 MS-COCO 数据集上使用少量校准数据，即可显著降低模型大小和推理延迟，同时保持零样本分类和检索任务的准确性。这对在 GeForce RTX 等消费级 GPU 上部署多模态 AI 应用具有重要意义。

NVIDIA Model Optimizer 的发布为 AI 开发者和研究人员提供了强大的模型优化工具链，使大模型在实际生产环境中的部署变得更加高效和经济。