在 @modal 上用 SGLang 部署 Step 3.7 Flash 🚀 Modal 是一个无服务器 AI 平台,用于部署和扩展计算密集型工作负载,无需管理基础设施。 他们的新指南展示了如何在 Modal 上使用 SGLang 服务我们的开源权重 Step 3.7 Flash,采用 8×H100 GPU、Modal Volumes 以及兼容 OpenAI 的聊天补全端点。 很高兴与 Modal 合作,让 StepFun 模型更易于构建者使用。 https://modal.com/docs/examples/stepfun_inference
Deploy Step 3.7 Flash on @modal with SGLang 🚀
Modal is a serverless AI platform for deploying and scaling compute-intensive workloads without managing infrastructure.
Their new guide shows how to serve our open-weight Step 3.7 Flash with SGLang on Modal, using 8×H100 GPUs, Modal Volumes, and an OpenAI-compatible chat completions endpoint.
Excited to collaborate with Modal to make StepFun models more accessible to builders. https://modal.com/docs/examples/stepfun_inference