NVIDIA Dynamo 新增多轮智能体工具流支持,提升推理与工具调用响应效率
发布时间:2026-05-21 08:51:41
在智能体应用持续升温的背景下,推理服务已不再只是简单返回一段文本结果。面对带有多轮上下文、工具调用、推理片段和结构化响应的复杂请求,底层推理引擎需要同时保证正确性、稳定性与响应速度。NVIDIA 最新介绍了 Dynamo 在这一方向上的一系列增强,目标是更好支撑代理式 AI 工作流。
此次更新的核心之一,是让 Dynamo 更完整地支持多轮智能体交互中的推理+工具调用结构。文章指出,在真实智能体场景中,模型往往会先输出一段推理内容,再发起一个或多个工具调用。如果这些内容在后续轮次中被错误重组、遗漏,模型就可能失去关键上下文。为此,Dynamo 对推理解析器和工具调用解析器进行了加强,以更准确保留各段内容之间的对应关系。
另一个重点是提升流式返回体验。过去,一些系统虽然能够流式输出推理文本,但工具调用往往要等到整轮响应结束后才能交给上层应用处理,这会增加等待时间。Dynamo 现在支持在工具调用结构完成后更早分发相关事件,使上层智能体框架能够更快执行工具请求,从而缩短整体交互链路。
在系统协同层面,NVIDIA Dynamo 被用于编排异构推理流程。对于带有大量固定系统提示和工具定义的智能体应用,只要前缀保持稳定,推理系统就能更有效复用缓存,减少首个 token 输出时间。
