4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

NVIDIA NIM 1.4 现已部署可用,推理速度提升 2.4 倍

发布时间:2025-01-21 09:59:27

随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI 模型推理提供生产就绪型微服务容器,不断提高企业级生成式 AI 性能。即将推出的 NIM 版本 1.4 定于 12 月初发布,开箱即用的请求性能可提升高达 2.4 倍,并提供相同的单命令部署体验。

NIM 的核心是多个 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可实现光速推理性能。在每个版本中,NIM 都整合了来自这些引擎的内核优化、内存管理和调度方面的最新进展,以提高性能。

Chart
图 1、与 NIM 1.2 相比,NVIDIA NIM 1.4 吞吐量。Llama 3.1 70B 2 个 H200-SXM 输入令牌 8K,输出令牌 256;Llama 3.1 8B 1 个 H100-SXM 输入令牌 30K,输出令牌 256。

在 NIM 1.4 中,内核效率、运行时启发式算法和内存分配有了显著改进,推理速度提高了 2.4 倍。这些进步对于依赖快速响应和高吞吐量的生成式 AI 应用的企业至关重要。

NIM 还受益于全栈加速计算的持续更新,可提升计算堆栈各个级别的性能和效率。这包括对最新的 NVIDIA TensorRT 和 NVIDIA CUDA 版本的支持,进一步提高了推理性能。NIM 用户无需手动更新软件,即可从这些持续改进中受益。

Chart
图 2、NVIDIA Llama 3.1 8B NIM 1.4 与 Llama 3.1 8B NIM 1.2 在 1x H100SXM 上运行,输入令牌 30K,输出令牌 256 。

NIM 整合了全套预配置软件,提供高性能 AI 推理,并且配置简单,使开发者能够快速开始使用高性能推理。

持续创新循环意味着 TensorRT-LLM、CUDA 和其他核心加速计算技术的每项改进都会立即使 NIM 用户受益。更新通过 NIM 微服务容器的更新无缝集成和交付,消除了手动配置的需求,并减少了通常与维护高性能推理解决方案相关的工程开销。