NVIDIA Dynamo 新增多轮智能体工具流支持，提升推理与工具调用响应效率

发布时间：2026-05-21 08:51:41

在智能体应用持续升温的背景下，推理服务已不再只是简单返回一段文本结果。面对带有多轮上下文、工具调用、推理片段和结构化响应的复杂请求，底层推理引擎需要同时保证正确性、稳定性与响应速度。NVIDIA 最新介绍了 Dynamo 在这一方向上的一系列增强，目标是更好支撑代理式 AI 工作流。

此次更新的核心之一，是让 Dynamo 更完整地支持多轮智能体交互中的推理+工具调用结构。文章指出，在真实智能体场景中，模型往往会先输出一段推理内容，再发起一个或多个工具调用。如果这些内容在后续轮次中被错误重组、遗漏，模型就可能失去关键上下文。为此，Dynamo 对推理解析器和工具调用解析器进行了加强，以更准确保留各段内容之间的对应关系。

另一个重点是提升流式返回体验。过去，一些系统虽然能够流式输出推理文本，但工具调用往往要等到整轮响应结束后才能交给上层应用处理，这会增加等待时间。Dynamo 现在支持在工具调用结构完成后更早分发相关事件，使上层智能体框架能够更快执行工具请求，从而缩短整体交互链路。

在系统协同层面，NVIDIA Dynamo 被用于编排异构推理流程。对于带有大量固定系统提示和工具定义的智能体应用，只要前缀保持稳定，推理系统就能更有效复用缓存，减少首个 token 输出时间。

上一篇：NVIDIA 与 Ineffable Intelligence 合作推进强化学习基础设施下一篇：NVIDIA 发布 AI 模型服务优化指南，聚焦降低部署链路摩擦

NVIDIA Dynamo 新增多轮智能体工具流支持，提升推理与工具调用响应效率

北京欣泉科技有限公司

电话：4006605680