NVIDIA GB200 NVL72 与 Slurm 块调度:实现机架级极致效率
发布时间:2026-05-19 16:31:07
NVIDIA GB200 NVL72 通过将 NVIDIA NVLink 一致性域扩展至整个机架,引入了一种构建 GPU 集群的全新方式。这一设计实现了百亿亿次级性能,但同时也改变了传统调度系统的运行假设。机架级局部性成为硬性约束,当工作负载跨越域边界时,性能会急剧下降。
GB200 NVL72 在一个机架内集成了 72 颗 NVIDIA Blackwell GPU,横跨 18 个计算托盘,通过第五代 NVLink 统一互联。机架内所有通信均以 NVLink 速度运行,提供每 GPU 1.8 TB/s 双向吞吐,总计 130 TB/s 聚合带宽。而跨域通信则面临 50 GB/s 的性能陡降。
为应对这一挑战,Slurm 工作负载管理器引入了 topology/block 插件,使管理员和用户能够将特定应用的 NVLink 需求表达为原子块。这一插件是 NVIDIA 与 SchedMD 联合开发的成果,自 Slurm 23.11 版本开始支持。
每个多节点 NVLink 域被建模为一个块,作为刚性调度单元。如果作业提交的分配请求适合单个块(18 个节点或以内),节点将始终从一个块分配,不会被碎片化。这种方式有效解决了机架级架构中的碎片化问题。
通过拓扑块调度与分段调度功能的结合,管理员可以在配置拓扑文件时精确描述机架内的 NVLink 域结构,实现从原型集群到生产级机架级编排的平滑过渡,最大化 GPU 利用率和作业性能。
