4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

NVIDIA 发布模型量化新工具:Model Optimizer 实现高效 AI 推理优化

发布时间:2026-05-19 17:12:58

模型量化是降低显存占用并提升消费级设备推理性能的有效方法。通过降低计算和内存需求的同时保持模型质量,量化帮助 AI 模型在资源受限的环境中更高效地运行。NVIDIA Model Optimizer 库整合了最先进的模型优化技术,用于压缩和加速 AI 模型。

ModelOpt 支持多种优化技术,包括量化、蒸馏、剪枝、投机解码和稀疏化。它接受 Hugging Face、PyTorch 或 ONNX 格式的模型作为输入,提供 Python API 使用户能够轻松组合不同的优化技术,生成优化后的检查点。

该库支持高性能量化格式如 FP4、FP8、INT8 和 INT4,以及包括 SmoothQuant、AWQ、SVDQuant 和 Double Quantization 在内的先进算法。同时支持训练后量化和量化感知训练两种方法,为用户提供灵活的选择。

以 CLIP 视觉语言模型为例,使用 ModelOpt 进行 FP8 训练后量化,通过在 MS-COCO 数据集上使用少量校准数据,即可显著降低模型大小和推理延迟,同时保持零样本分类和检索任务的准确性。这对在 GeForce RTX 等消费级 GPU 上部署多模态 AI 应用具有重要意义。

NVIDIA Model Optimizer 的发布为 AI 开发者和研究人员提供了强大的模型优化工具链,使大模型在实际生产环境中的部署变得更加高效和经济。