NVIDIA Cosmos 3 发布:统一物理 AI 推理、世界生成与动作生成的开源基础模型
发布时间:2026-06-08 09:50:09
物理 AI 系统必须理解真实世界才能在其中行动。机器人、自动驾驶车辆和智能空间需要感知环境变化、预测接下来可能发生什么,并针对特定场景生成相应动作。NVIDIA 最新发布的 Cosmos 3 正是为这一目标打造的物理 AI 基础模型,将物理推理、世界生成和动作生成整合在一个开源模型中。
Cosmos 3 采用 Mixture-of-Transformers(MoT)双塔架构。其中 Reasoner 塔是一个视觉语言模型,负责理解多模态输入(图像、视频、文本),识别运动、物体交互等物理上下文,相当于在执行任何生成之前的"大脑"推理层;Generator 塔则基于 Reasoner 的理解,通过扩散过程生成物理感知的视频和动作输出。这种设计使得单个模型即可同时完成推理和生成任务,无需在多个模型之间做编排调度。
NVIDIA 此次开源了 Cosmos 3 的模型权重、训练脚本、部署工具和数据集。目前提供两个版本:Cosmos 3 Nano(8B 参数)面向工作站级部署,可在 NVIDIA RTX PRO 6000 等 GPU 上运行,适合实时机器人推理;Cosmos 3 Super(32B 参数)则面向数据中心,在 NVIDIA Hopper 和 Blackwell GPU 上运行,适合大规模合成数据生成和高级物理推理任务。
在能力方面,Cosmos 3 支持多种输入输出模态组合:文本到图像生成、文本/视频到视频预测、文本+图像+视频的推理分析、动作条件世界模型,以及视频到动作的策略模型等。这意味着同一个模型既可以用于生成自动驾驶边缘场景的合成训练数据,也可以用于机器人学习策略的开发和验证。
伴随模型发布的还有六套开源合成数据集,涵盖机器人操作、物理仿真、空间推理、人体运动、驾驶和仓库环境等场景。这些数据集和开源工具链旨在降低物理 AI 开发的门槛,让更多研究团队和企业能够在此基础上构建自己的物理 AI 应用。
整体来看,Cosmos 3 代表了物理 AI 基础模型的一次重要演进,从分离的推理和生成模型走向统一架构。对于机器人、自动驾驶和智能空间领域的开发者而言,这意味着更简洁的开发流程和更开放的模型生态。
