NVIDIA NIM 1.4 现已部署可用，推理速度提升 2.4 倍

发布时间：2025-01-21 09:59:27

随着生成式 AI 重塑各行各业，对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI 模型推理提供生产就绪型微服务容器，不断提高企业级生成式 AI 性能。即将推出的 NIM 版本 1.4 定于 12 月初发布，开箱即用的请求性能可提升高达 2.4 倍，并提供相同的单命令部署体验。

NIM 的核心是多个 LLM 推理引擎，包括 NVIDIA TensorRT-LLM ，可实现光速推理性能。在每个版本中，NIM 都整合了来自这些引擎的内核优化、内存管理和调度方面的最新进展，以提高性能。

Chart — *图 1、与 NIM 1.2 相比，NVIDIA NIM 1.4 吞吐量。Llama 3.1 70B 2 个 H200-SXM 输入令牌 8K，输出令牌 256；Llama 3.1 8B 1 个 H100-SXM 输入令牌 30K，输出令牌 256。*

在 NIM 1.4 中，内核效率、运行时启发式算法和内存分配有了显著改进，推理速度提高了 2.4 倍。这些进步对于依赖快速响应和高吞吐量的生成式 AI 应用的企业至关重要。

NIM 还受益于全栈加速计算的持续更新，可提升计算堆栈各个级别的性能和效率。这包括对最新的 NVIDIA TensorRT 和 NVIDIA CUDA 版本的支持，进一步提高了推理性能。NIM 用户无需手动更新软件，即可从这些持续改进中受益。

NIM 整合了全套预配置软件，提供高性能 AI 推理，并且配置简单，使开发者能够快速开始使用高性能推理。

持续创新循环意味着 TensorRT-LLM、CUDA 和其他核心加速计算技术的每项改进都会立即使 NIM 用户受益。更新通过 NIM 微服务容器的更新无缝集成和交付，消除了手动配置的需求，并减少了通常与维护高性能推理解决方案相关的工程开销。

上一篇：借助 NVIDIA TensorRT-LLM 分块预填充提高 AI 推理效率和简化部署下一篇：NVIDIA DOCA 2.9 借助新性能和安全功能强化人工智能和云计算基础设施

NVIDIA NIM 1.4 现已部署可用，推理速度提升 2.4 倍

北京欣泉科技有限公司

电话：4006605680