4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

NVIDIA GB200 NVL72 与 Slurm 块调度:实现机架级极致效率

发布时间:2026-05-19 16:31:07

NVIDIA GB200 NVL72 通过将 NVIDIA NVLink 一致性域扩展至整个机架,引入了一种构建 GPU 集群的全新方式。这一设计实现了百亿亿次级性能,但同时也改变了传统调度系统的运行假设。机架级局部性成为硬性约束,当工作负载跨越域边界时,性能会急剧下降。

GB200 NVL72 在一个机架内集成了 72 颗 NVIDIA Blackwell GPU,横跨 18 个计算托盘,通过第五代 NVLink 统一互联。机架内所有通信均以 NVLink 速度运行,提供每 GPU 1.8 TB/s 双向吞吐,总计 130 TB/s 聚合带宽。而跨域通信则面临 50 GB/s 的性能陡降。

为应对这一挑战,Slurm 工作负载管理器引入了 topology/block 插件,使管理员和用户能够将特定应用的 NVLink 需求表达为原子块。这一插件是 NVIDIA 与 SchedMD 联合开发的成果,自 Slurm 23.11 版本开始支持。

每个多节点 NVLink 域被建模为一个块,作为刚性调度单元。如果作业提交的分配请求适合单个块(18 个节点或以内),节点将始终从一个块分配,不会被碎片化。这种方式有效解决了机架级架构中的碎片化问题。

通过拓扑块调度与分段调度功能的结合,管理员可以在配置拓扑文件时精确描述机架内的 NVLink 域结构,实现从原型集群到生产级机架级编排的平滑过渡,最大化 GPU 利用率和作业性能。