Step 3.7 Flash 登陆 NVIDIA GPU:198B 参数企业级多模态 AI 模型
发布时间:2026-06-10 09:38:08
AI 应用正在超越纯文本生成,迈向能够实时感知、搜索和推理图像、文档、视频和语言的多模态系统。StepFun 最新推出的 Step 3.7 Flash 正是面向这一趋势的企业级视觉语言模型,现已可在 NVIDIA 加速基础设施上部署使用。
Step 3.7 Flash 是一个 198B 参数的混合专家(MoE)视觉语言模型,每次前向传播激活约 11B 参数。它针对结合感知、搜索和多步骤推理的智能体工作流进行了优化,原生支持图像和视频输入,提供低、中、高三种可配置推理深度,并拥有 256K 的上下文窗口。
在企业应用方面,Step 3.7 Flash 适用于金融分析、并发编码智能体以及其他高吞吐多模态使用场景。开发者可以通过 Hugging Face 获取 StepFun 的 NVFP4 量化版检查点,利用降低的内存带宽和存储需求来提升推理性能。
部署方面,Step 3.7 Flash 支持通过 SGLang、NVIDIA TensorRT-LLM 和 vLLM 等开源框架运行,这些框架已针对 NVIDIA GPU 进行了内核优化。开发者还可以通过 build.nvidia.com 的 GPU 加速端点进行快速原型验证。
对于生产环境,NVIDIA NIM 提供了容器化推理微服务,将模型与性能调优、标准化 API 和企业级部署灵活性打包在一起。开发者可以在本地、云端或混合环境中部署,并通过 OpenAI 兼容的 API 接口发送推理请求。
此外,Step 3.7 Flash 还可以通过 NVIDIA NeMo 框架进行领域特定数据的微调。结合 NVIDIA Nemotron Parse 的文档智能管线,开发者可以构建从复杂文档(如财报、演示文稿和科学论文)中提取结构化信息的完整多步骤工作流。
