NVIDIA GB200 NVL72 与 Slurm 块调度：实现机架级极致效率

发布时间：2026-05-19 16:31:07

NVIDIA GB200 NVL72 通过将 NVIDIA NVLink 一致性域扩展至整个机架，引入了一种构建 GPU 集群的全新方式。这一设计实现了百亿亿次级性能，但同时也改变了传统调度系统的运行假设。机架级局部性成为硬性约束，当工作负载跨越域边界时，性能会急剧下降。

GB200 NVL72 在一个机架内集成了 72 颗 NVIDIA Blackwell GPU，横跨 18 个计算托盘，通过第五代 NVLink 统一互联。机架内所有通信均以 NVLink 速度运行，提供每 GPU 1.8 TB/s 双向吞吐，总计 130 TB/s 聚合带宽。而跨域通信则面临 50 GB/s 的性能陡降。

为应对这一挑战，Slurm 工作负载管理器引入了 topology/block 插件，使管理员和用户能够将特定应用的 NVLink 需求表达为原子块。这一插件是 NVIDIA 与 SchedMD 联合开发的成果，自 Slurm 23.11 版本开始支持。

每个多节点 NVLink 域被建模为一个块，作为刚性调度单元。如果作业提交的分配请求适合单个块（18 个节点或以内），节点将始终从一个块分配，不会被碎片化。这种方式有效解决了机架级架构中的碎片化问题。

通过拓扑块调度与分段调度功能的结合，管理员可以在配置拓扑文件时精确描述机架内的 NVLink 域结构，实现从原型集群到生产级机架级编排的平滑过渡，最大化 GPU 利用率和作业性能。

上一篇：NVIDIA 发布车载 AI 智能体构建方案：从云端到汽车的端到端架构下一篇：NVIDIA 加速 X 射线纳米成像分析：42TB 数据处理从 9 个月缩至 4 小时

NVIDIA GB200 NVL72 与 Slurm 块调度：实现机架级极致效率

北京欣泉科技有限公司

电话：4006605680