Step 3.5 Flash – LLM open source com suporte a inferência de alta velocidade

(static.stepfun.com)

20 pontos por GN⁺ 2026-02-20 | 2 comentários | Compartilhar no WhatsApp

Com uma arquitetura esparsa Mixture of Experts que ativa apenas 11 bilhões dos 196 bilhões de parâmetros, oferece inferência de alta velocidade e interações em tempo real
Alcança velocidade de geração de até 350 tokens por segundo e uma janela de contexto de 256K
Com SWE-bench Verified 74,4%, apresenta desempenho estável em benchmarks de coding e agentes, e também pode rodar em ambientes locais (Mac Studio M4 Max, NVIDIA DGX Spark)
Por meio de raciocínio baseado no uso de ferramentas e orquestração multiagente, comprova alta confiabilidade e capacidade de execução em cenários reais de trabalho, como finanças, análise de dados e automação de pesquisa
Com a técnica de otimização MIS-PO baseada em reinforcement learning, garante estabilidade em raciocínio de longo prazo e oferece capacidades de raciocínio e ação de nível frontier com custo inferior ao de modelos de alto desempenho

Visão geral do modelo e desempenho

Step 3.5 Flash é um foundation model open source que combina inferência de alta velocidade e capacidades de agente, registrando pontuação média de 81,0 em benchmarks
- Pontuação média superior à de modelos principais como GLM-4.7 (78,5), DeepSeek V3.2 (77,3) e Kimi K2.5 (80,5)
Com uma arquitetura esparsa MoE, apenas 11B dos 196B parâmetros são ativados, permitindo resposta em tempo real com computação eficiente
Com base em MTP-3, alcança velocidade de geração de 100~300 tok/s em uso geral e até 350 tok/s em tarefas de coding
Com SWE-bench Verified 74,4% e Terminal-Bench 2.0 51,0%, assegura desempenho estável em tarefas de código e agentes de longa duração
Implementa uma janela de contexto de 256K com estrutura SWA 3:1, mantendo eficiência de custo mesmo em contextos longos

Casos reais de uso e utilização de ferramentas

Melhora o desempenho em matemática, coding e análise de dados por meio de tool-augmented reasoning
- Com integração da execução de Python, registra pontuações aprimoradas em AIME 2025 (99,8), HMMT 2025 (98,0) e IMOAnswerBench (86,7)
Em um cenário de investimento em ações, combina mais de 80 ferramentas MCP para automatizar coleta de dados, análise e alertas
O Autonomous Business Intelligence Engine automatiza desde o processamento de CSV até previsões, identificando uma diferença de qualidade de dados de 1,6x
O Large-Scale Repository Architect analisa grandes codebases para gerar uma wiki especializada que conecta padrões de arquitetura e detalhes de implementação

Pesquisa e desempenho de agentes

No benchmark ResearchRubrics, obteve 65,3%, superando Gemini DeepResearch (63,7) e OpenAI DeepResearch (60,7)
- Em um único loop baseado em ReAct, executa planejamento, busca, verificação e redação
No ambiente Claude Code, alcançou 39,6% em benchmark de análise de dados, ligeiramente acima de GPT-5.2 (39,3)
Por meio de um Multi-Agent Framework, o Master Agent coordena agentes de busca, verificação e resumo para gerar resultados estruturados
Com Cloud-Device Synergy, ao se integrar ao Step-GUI, registra 57 pontos no benchmark AndroidDaily Hard (contra 40 pontos sozinho)

Arquitetura e características técnicas

Com um backbone Sparse MoE, separa a capacidade global (196B) da computação por token (11B), otimizando custo e velocidade de inferência
A estrutura Sliding-Window Attention + Full Attention (3:1) mantém a eficiência no processamento de contextos longos
Com Head-wise Gated Attention, controla dinamicamente o fluxo de informação e garante estabilidade numérica
Alcança throughput de decodificação de 350 tok/s em GPUs NVIDIA Hopper
Suporta inferência local (20 tok/s, contexto 256K) por meio de modelos INT4 GGUF quantizados

Framework de reinforcement learning

Introduz Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Remove amostras instáveis com filtragem binária, em vez de importance sampling
- Estabiliza o raciocínio de longo prazo com truncation-aware value bootstrapping e routing confidence monitoring
Essa estrutura viabiliza autoaperfeiçoamento contínuo em matemática, coding e uso de ferramentas de forma geral

Comparação de benchmarks

Step 3.5 Flash apresenta desempenho de alto nível e equilibrado em três áreas: Reasoning, Coding e Agentic
- AIME 2025: 97,3 / HMMT 2025: 98,4 / LiveCodeBench-V6: 86,4
- τ²-Bench: 88,2 / BrowseComp-ZH: 66,9 / ResearchRubrics: 65,3
O custo de decodificação é 1,0x com contexto de 128K, mais eficiente que DeepSeek V3.2 (6,0x) e Kimi K2.5 (18,9x)

Limitações e direções futuras

Eficiência de tokens: requer gerações mais longas para atingir a mesma qualidade em comparação ao Gemini 3.0 Pro
Integração de especialização: estão em andamento pesquisas de on-policy distillation para combinar generalidade e especialização de forma eficiente
Expansão de RL agentic: há planos para ampliar a aplicação de RL a tarefas complexas em nível profissional e de pesquisa
Estabilidade operacional: em conversas longas ou mudanças de domínio, pode haver raciocínio repetitivo e saída em idiomas mistos

Distribuição e acessibilidade

Integrado à plataforma OpenClaw, pode ser usado com instalação simples e registro do modelo
Acessível por meio da plataforma de API (em inglês/chinês) e de apps web e mobile (iOS/Android)
Atualizações e suporte são oferecidos via comunidade no Discord

2 comentários

sftblw 2026-02-20

Esse modelo é muito bom.
Quem tiver condições de rodar com llama.cpp precisa aplicar separadamente o prompt que está no comentário do tópico abaixo. Caso contrário, ocorre o problema de aparecer apenas um </think> solto no meio, sem o <think> de abertura.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  opção omitida \  
  --jinja \  
  --chat-template-file caminho/step3p5_flash_chat_template.jinja

GN⁺ 2026-02-20

Comentários do Hacker News

Acho que este é um dos lançamentos de LLM mais subestimados dos últimos meses
Testei localmente com a versão quantizada em 4-bit (Step-3.5-Flash-GGUF) e ele superou até o Minimax 2.5 e o GLM-4.7 (o GLM só funcionava em 2-bit)
Os principais destaques são os seguintes
- A eficiência de contexto é muito alta. Em um Mac com 128GB, dá para rodar todo o contexto de 256k ou dois fluxos de 128k ao mesmo tempo
- A velocidade também é boa no M1 Ultra (36 t/s tg, 300 t/s pp), e a queda de desempenho é gradual mesmo quando o contexto aumenta
- É otimizado para agentic coding e parece ter sido treinado para ser compatível com o Claude Code. A única exceção é o Codex por causa de problemas na ferramenta de edição de patches
  Entre os modelos na faixa de 200B de parâmetros, é o primeiro modelo local realmente utilizável em harnesses de CLI. Estou usando junto com o pi.dev e foi a melhor experiência que já tive
  Como ponto negativo, há um bug de loop infinito de raciocínio (issue relacionada)
  Aparentemente a StepFun também é a empresa por trás do ACEStep (modelo de geração musical), e isso também é mencionado na documentação do ComfyUI
- Testei o Qwen3 Coder Next com o OpenCode e funcionou muito bem
  Às vezes ele erra chamadas de ferramenta, mas com a configuração temperature=1 sugerida pelo Qwen ele não trava
  O Nemotron 3 Nano tinha uso de ferramentas fraco e tendia a usar quase só a shell tool
  No geral, os modelos open weight agentic tendem a não chamar bem ferramentas com as quais não estão familiarizados
- Fiquei curioso se rodar modelos OSS em um M3 Ultra (512GB RAM) seria mais econômico do que assinar Claude ou Codex
  Queria saber se alguém já fez essa conta
- Fiquei curioso se o problema de loop infinito de raciocínio poderia ser resolvido trocando o engine de inferência
  Na minha opinião, parece algo que exigiria mexer nos próprios pesos do modelo
- Queria saber se alguém testou a versão em MLX. Em teoria deve ser mais rápida, mas fico receoso de baixar várias versões
- gpt-oss 120b e 20b também funcionaram bem com o Codex
Recentemente achei interessante ler o processo de raciocínio (reasoning) por trás do truque “Walk or drive to the carwash”
Links relacionados: gist, conversa no stepfun.ai
Dizem que ele tirou 51,0% no Terminal-Bench 2.0, mas duvido que isso realmente garanta uma capacidade estável de lidar com tarefas longas
- O número de 51% por si só não significa muito. Esses benchmarks usam pontuação absoluta, então 100% não representa desempenho humano
  Se olhar o leaderboard, a maior pontuação é 75%, então 51% é cerca de ⅔ do nível SOTA
- Essa pontuação é parecida com a do Gemini 3 Flash, mas na prática parece que a configuração do agente influencia mais o resultado do que o modelo em si
- Apesar do nome, o TerminalBench quase não tem relação com terminal e está mais para um teste de sintaxe aleatória de ferramentas
  O modelo pode simplesmente ter memorizado flags de comandos
Quando testei, as alucinações (hallucination) eram severas. Até em uma pergunta simples como “ache um deck campeão de Pokémon” ele foi impreciso
Opus 4.6, Deepseek e Kimi funcionaram bem, como esperado
- Acho melhor usar modelos de porte médio para execução
- Modelos como o Gemini podem ter sido mais rápidos e precisos por usarem recursos de busca ativamente
É um modelo lançado recentemente que usa arquitetura Mixture of Experts (MoE), ativando só 11B dos 196B por token
Supera o Kimi K2.5 e o GLM 4.7 em mais benchmarks
Também pode rodar em uma máquina com 128GB na versão quantizada em 4-bit (link de referência)
- Fico em dúvida se essa vantagem em benchmark realmente significa algo. Eu dou mais importância a seguir instruções, raciocínio em contexto longo e ausência de alucinação
- Fiquei curioso sobre qual é melhor entre Q4_K_S(116GB), IQ4_NL(112GB) e Q4_0(113GB)
  Consulte a página do modelo
Os modelos recentes têm pontuação alta em benchmarks, mas isso vem acompanhado de uma explosão no uso de tokens
Para haver inovação de verdade, é preciso resolver a questão da eficiência energética
- Não é só a quantidade de tokens que importa, mas também a eficiência energética por token (tokens/joule)
  O uso eficiente da arquitetura MoE afeta tanto tokens/joule quanto tokens/sec
O SWE-bench Verified é razoável, mas precisamos de um benchmark de SWE melhor
Criar um benchmark justo custa caro em termos de execução contínua
O conceito de “benchmark ao vivo” é bom, mas não reflete suficientemente bem os modelos mais recentes
- Houve uma sugestão para participar do desenvolvimento do Terminal Bench 3.0
  Link do documento
Acho que tokens por dólar/segundo é uma métrica mais importante do que número de parâmetros
Isso porque os modelos de ponta não oferecem suporte a inferência local
- Se for um modelo open source, o número de parâmetros também importa para quem considera self-hosting
- O número de parâmetros ainda é um indicador aproximado do desempenho do modelo
  Por exemplo, o Qwen3 0.6b é excelente em tok/dollar, mas é insuficiente para a maioria dos usos
- Este modelo é relevante porque pode rodar localmente até em uma máquina abaixo de $3.000
Fiz algumas observações em testes simples
1. O trace de saída era muito prolixo e os parágrafos eram curtos, em estilo LinkedIn
2. A velocidade de saída de tokens na versão hospedada era muito alta
3. A aderência às instruções e a qualidade da saída eram superiores às de modelos principais como o Opus 4.5
Fiquei confuso porque o eixo x do gráfico está invertido
- Pensei a mesma coisa. Não faço ideia de por que fizeram isso
- Talvez tenham tentado fazer o gráfico parecer melhor, mas na prática não ficou assim