4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

NVIDIA Vera Rubin 平台瞄准 Agentic AI 扩展瓶颈,强化低时延推理能力

发布时间:2026-05-20 08:48:30

随着 Agentic AI 带来更多多轮决策、工具调用和长上下文需求,传统推理系统在时延与吞吐之间面临更大压力。NVIDIA 通过 Vera Rubin 平台、Groq 3 LPX 与 Dynamo 协同设计,试图提升大规模智能体推理场景下的性能与可预测性。

NVIDIA 在 2026 年 5 月 14 日发布的开发者博客中表示,Vera Rubin NVL72 被定位为该平台的核心计算引擎,用于承接高吞吐推理负载。文章认为,当前新一代智能体工作负载不仅要求更高模型能力,也要求在大规模部署下保持更稳定的低时延响应。

为应对这一问题,NVIDIA 在文中重点介绍了 Vera Rubin 平台与 Groq 3 LPX 的协同设计思路。其核心方向是把高吞吐计算能力与更确定性的低抖动执行方式结合起来,尽量减少多芯片、多节点通信中的不确定性,从而更适配多智能体推理这类对响应波动更敏感的场景。

在系统协同层面,NVIDIA Dynamo 被用于编排异构推理流程。按照文中描述,Rubin GPU 更适合处理预填充和长上下文相关任务,而 LPX 则更适合承担对低时延更敏感的前馈解码部分。通过这种分工,平台试图同时兼顾吞吐、延迟和长上下文支持能力。