4006605680

迈络思交换机,mellanox交换机,迈络思IB网卡,迈络思IB交换机,迈络思线缆,迈络思网卡,无线ap,英伟达,NVIDIA, Mellanox交换机, Mellanox 高速以太网交换机, 低延迟 Mellanox 交换机, 数据中心, Mellanox 交换机, 高性能计算, Mellanox 交换机, 云计算用 Mellanox 交换机, Mellanox 交换机网络带宽
目前位置:首页>>新闻中心

NVIDIA Alpamayo 发布:自动驾驶模型的闭环后训练平台

发布时间:2026-06-10 09:13:29

开发自动驾驶策略需要在训练和部署之间架起一座重要桥梁。视觉-语言-动作(VLA)模型主要在开环模式下训练,即模型输出直接与真实行为对比,不考虑其对环境的影响。然而在部署中,驾驶策略运行在闭环模式下,每一次刹车、转向和导航决策都会影响环境,微小的误差也会随时间累积。

NVIDIA 最新发布的 Alpamayo 正是为解决这一挑战而设计的开放平台,包含 AI 模型、仿真框架和物理 AI 数据集。其核心组件 AlpaSim 自动驾驶仿真平台和 AlpaGym 闭环训练框架(即将开源),将仿真器反馈直接连接到策略训练循环中,使模型从自身行为在仿真中的后果中学习。

强化学习可用于改进最初在开环模式下训练的策略。不再仅针对记录的专家轨迹进行优化,模型现在可以通过仿真中自身行为的后果来学习。这种转变对自动驾驶开发至关重要——开环评估无法暴露的小型预测或规划错误,在闭环中会随时间累积并显现出来。

然而,启用闭环强化学习也面临挑战:模型推理、运行仿真、训练模型、同步权重更新、跨实例通信和数据搬运需要并行执行,复杂度极高。AlpaGym 通过将 AlpaSim 仿真器微服务、NVIDIA 物理 AI 开放数据集和分布式 Cosmos-RL 训练框架整合为可扩展的流水线来解决这些问题。

AlpaGym 设计为从单 GPU 到多节点 GPU 集群的无缝扩展,通过异步和稳定的分布式 RL 流水线支持高效大规模训练,无需修改用户代码。它集成 AlpaSim 和 Cosmos RL 作为运行和编排层,GRPO 作为默认算法,并包含经过 Alpamayo 模型测试的参考奖励函数。

对于自动驾驶研发团队而言,Alpamayo 意味着可以在仿真环境中对驾驶策略进行闭环后训练,大幅缩小训练与部署之间的差距。结合开源数据集和参考实现,这一平台有望加速自动驾驶模型从研发到部署的转化过程。