4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

NVIDIA Run:ai + NIM:智能调度实现 GPU 利用率翻倍

发布时间:2026-06-15 09:37:14

部署 LLM 的企业面临推理工作负载多样化的挑战。一个小型嵌入模型可能只需几 GB 显存,而 70B+ 参数的大模型则需要多块 GPU。这种差异往往导致 GPU 平均利用率低下、计算成本高昂且延迟不可预测。

问题不仅在于将更多工作负载塞进 GPU,更在于智能调度。没有理解推理工作负载模式的编排层,组织不得不在过度配置(资源浪费)和配置不足(性能降级)之间做选择。

NVIDIA NIM 将优化后的推理引擎打包为容器化微服务,提供预配置的推理运行时、OpenAI 兼容 API、自动量化与批处理优化以及企业级安全控制。但标准化部署层只是第一步,最大化 GPU 利用率需要智能编排,这正是 NVIDIA Run:ai 的核心能力所在。

Run:ai 为 NIM 部署带来了四项关键能力:推理优先优先级自动保护用户 facing 工作负载、支持真正内存隔离的 GPU 分片、基于工作负载需求的智能放置、以及动态内存管理。测试数据显示,这些技术可带来约 2 倍的 GPU 利用率提升,同时吞吐量几乎不受影响。

在重度并发场景下,动态分片可实现高达 1.4 倍的吞吐量提升。而 GPU 内存交换功能可将首请求延迟降低 44-61 倍,这对于冷启动场景尤为关键。结合自动扩缩容(包括副本扩缩和缩至零),集群可以根据流量变化动态调整资源。

对于运行混合负载的组织而言,Run:ai 确保推理工作负载不会被训练任务抢占。推理服务于最终用户,延迟飙升和停机直接影响用户体验和 SLA 合规;而训练任务可以通过检查点中断和恢复。这种自动优先级分配消除了大多数环境中手动调优的需求。