NVIDIA Alpamayo 发布：自动驾驶模型的闭环后训练平台

发布时间：2026-06-10 09:13:29

开发自动驾驶策略需要在训练和部署之间架起一座重要桥梁。视觉-语言-动作（VLA）模型主要在开环模式下训练，即模型输出直接与真实行为对比，不考虑其对环境的影响。然而在部署中，驾驶策略运行在闭环模式下，每一次刹车、转向和导航决策都会影响环境，微小的误差也会随时间累积。

NVIDIA 最新发布的 Alpamayo 正是为解决这一挑战而设计的开放平台，包含 AI 模型、仿真框架和物理 AI 数据集。其核心组件 AlpaSim 自动驾驶仿真平台和 AlpaGym 闭环训练框架（即将开源），将仿真器反馈直接连接到策略训练循环中，使模型从自身行为在仿真中的后果中学习。

强化学习可用于改进最初在开环模式下训练的策略。不再仅针对记录的专家轨迹进行优化，模型现在可以通过仿真中自身行为的后果来学习。这种转变对自动驾驶开发至关重要——开环评估无法暴露的小型预测或规划错误，在闭环中会随时间累积并显现出来。

然而，启用闭环强化学习也面临挑战：模型推理、运行仿真、训练模型、同步权重更新、跨实例通信和数据搬运需要并行执行，复杂度极高。AlpaGym 通过将 AlpaSim 仿真器微服务、NVIDIA 物理 AI 开放数据集和分布式 Cosmos-RL 训练框架整合为可扩展的流水线来解决这些问题。

AlpaGym 设计为从单 GPU 到多节点 GPU 集群的无缝扩展，通过异步和稳定的分布式 RL 流水线支持高效大规模训练，无需修改用户代码。它集成 AlpaSim 和 Cosmos RL 作为运行和编排层，GRPO 作为默认算法，并包含经过 Alpamayo 模型测试的参考奖励函数。

对于自动驾驶研发团队而言，Alpamayo 意味着可以在仿真环境中对驾驶策略进行闭环后训练，大幅缩小训练与部署之间的差距。结合开源数据集和参考实现，这一平台有望加速自动驾驶模型从研发到部署的转化过程。