Step 3.7 Flash 登陆 NVIDIA GPU：198B 参数企业级多模态 AI 模型

发布时间：2026-06-10 09:38:08

AI 应用正在超越纯文本生成，迈向能够实时感知、搜索和推理图像、文档、视频和语言的多模态系统。StepFun 最新推出的 Step 3.7 Flash 正是面向这一趋势的企业级视觉语言模型，现已可在 NVIDIA 加速基础设施上部署使用。

Step 3.7 Flash 是一个 198B 参数的混合专家（MoE）视觉语言模型，每次前向传播激活约 11B 参数。它针对结合感知、搜索和多步骤推理的智能体工作流进行了优化，原生支持图像和视频输入，提供低、中、高三种可配置推理深度，并拥有 256K 的上下文窗口。

在企业应用方面，Step 3.7 Flash 适用于金融分析、并发编码智能体以及其他高吞吐多模态使用场景。开发者可以通过 Hugging Face 获取 StepFun 的 NVFP4 量化版检查点，利用降低的内存带宽和存储需求来提升推理性能。

部署方面，Step 3.7 Flash 支持通过 SGLang、NVIDIA TensorRT-LLM 和 vLLM 等开源框架运行，这些框架已针对 NVIDIA GPU 进行了内核优化。开发者还可以通过 build.nvidia.com 的 GPU 加速端点进行快速原型验证。

对于生产环境，NVIDIA NIM 提供了容器化推理微服务，将模型与性能调优、标准化 API 和企业级部署灵活性打包在一起。开发者可以在本地、云端或混合环境中部署，并通过 OpenAI 兼容的 API 接口发送推理请求。

此外，Step 3.7 Flash 还可以通过 NVIDIA NeMo 框架进行领域特定数据的微调。结合 NVIDIA Nemotron Parse 的文档智能管线，开发者可以构建从复杂文档（如财报、演示文稿和科学论文）中提取结构化信息的完整多步骤工作流。