NVIDIA TensorRT LLM AutoDeploy 发布：自动编译 PyTorch 模型为优化推理引擎

发布时间：2026-06-12 09:00:55

NVIDIA TensorRT LLM 让开发者能够为大型语言模型构建高性能推理引擎，但传统上部署新架构需要大量手动工作。NVIDIA 最新发布的 AutoDeploy（Beta 版）正是为解决这一挑战而设计，它能将现成的 PyTorch 模型自动编译为推理优化的计算图。

每种新 LLM 架构都带来独特的推理挑战，从 Transformer 模型到混合视觉语言模型再到状态空间模型。将参考实现转化为高性能推理引擎通常需要手动添加 KV 缓存管理、跨 GPU 分片、算子融合和执行图调优。AutoDeploy 通过编译器驱动的方式改变了这一流程，自动从 PyTorch 模型中提取计算图并应用一系列自动化转换。

AutoDeploy 的核心价值在于让模型创作者只需在 PyTorch 中描述一次模型，将缓存、分片、内核选择和运行时集成等推理相关的工作委托给编译器和运行时。这对于长尾模型尤为适用——包括新的研究架构、内部变体和快速迭代的开源模型，手动重新实现往往不切实际。

目前 AutoDeploy 已支持超过 100 个文本到文本 LLM，并提供对视觉语言模型和状态空间模型的早期支持。性能优化模型如 Llama 系列和 NVIDIA Nemotron 3 Nano 均已支持。它提供无缝模型转换、单一事实来源、推理优化和开箱即用部署等能力。

AutoDeploy 作为 TensorRT LLM 的 Beta 功能提供，位于原始 Hugging Face 模型和 TensorRT LLM 运行时之间。其 API 接受模型名称或检查点路径，底层自动使用 AutoDeploy 或手动后端进行图提取、优化和生成推理优化后的执行图。

对于 AI 工程团队来说，AutoDeploy 意味着新模型架构的部署时间从数周缩短到数天甚至数小时，让团队可以更快地将最新的研究成果转化为生产级的推理服务。

上一篇：NVIDIA Dynamo Snapshot：将 Kubernetes 推理冷启动从分钟级降至秒级下一篇：分离式 LLM 推理部署：在 Kubernetes 上拆分 Prefill 与解码阶段

NVIDIA TensorRT LLM AutoDeploy 发布：自动编译 PyTorch 模型为优化推理引擎

北京欣泉科技有限公司

电话：4006605680