NVIDIA TensorRT LLM AutoDeploy 发布:自动编译 PyTorch 模型为优化推理引擎
发布时间:2026-06-12 09:00:55
NVIDIA TensorRT LLM 让开发者能够为大型语言模型构建高性能推理引擎,但传统上部署新架构需要大量手动工作。NVIDIA 最新发布的 AutoDeploy(Beta 版)正是为解决这一挑战而设计,它能将现成的 PyTorch 模型自动编译为推理优化的计算图。
每种新 LLM 架构都带来独特的推理挑战,从 Transformer 模型到混合视觉语言模型再到状态空间模型。将参考实现转化为高性能推理引擎通常需要手动添加 KV 缓存管理、跨 GPU 分片、算子融合和执行图调优。AutoDeploy 通过编译器驱动的方式改变了这一流程,自动从 PyTorch 模型中提取计算图并应用一系列自动化转换。
AutoDeploy 的核心价值在于让模型创作者只需在 PyTorch 中描述一次模型,将缓存、分片、内核选择和运行时集成等推理相关的工作委托给编译器和运行时。这对于长尾模型尤为适用——包括新的研究架构、内部变体和快速迭代的开源模型,手动重新实现往往不切实际。
目前 AutoDeploy 已支持超过 100 个文本到文本 LLM,并提供对视觉语言模型和状态空间模型的早期支持。性能优化模型如 Llama 系列和 NVIDIA Nemotron 3 Nano 均已支持。它提供无缝模型转换、单一事实来源、推理优化和开箱即用部署等能力。
AutoDeploy 作为 TensorRT LLM 的 Beta 功能提供,位于原始 Hugging Face 模型和 TensorRT LLM 运行时之间。其 API 接受模型名称或检查点路径,底层自动使用 AutoDeploy 或手动后端进行图提取、优化和生成推理优化后的执行图。
对于 AI 工程团队来说,AutoDeploy 意味着新模型架构的部署时间从数周缩短到数天甚至数小时,让团队可以更快地将最新的研究成果转化为生产级的推理服务。
