- Com uma arquitetura esparsa Mixture of Experts que ativa apenas 11 bilhões dos 196 bilhões de parâmetros, oferece inferência de alta velocidade e interações em tempo real
- Alcança velocidade de geração de até 350 tokens por segundo e uma janela de contexto de 256K
- Com SWE-bench Verified 74,4%, apresenta desempenho estável em benchmarks de coding e agentes, e também pode rodar em ambientes locais (Mac Studio M4 Max, NVIDIA DGX Spark)
- Por meio de raciocínio baseado no uso de ferramentas e orquestração multiagente, comprova alta confiabilidade e capacidade de execução em cenários reais de trabalho, como finanças, análise de dados e automação de pesquisa
- Com a técnica de otimização MIS-PO baseada em reinforcement learning, garante estabilidade em raciocínio de longo prazo e oferece capacidades de raciocínio e ação de nível frontier com custo inferior ao de modelos de alto desempenho
Visão geral do modelo e desempenho
- Step 3.5 Flash é um foundation model open source que combina inferência de alta velocidade e capacidades de agente, registrando pontuação média de 81,0 em benchmarks
- Pontuação média superior à de modelos principais como GLM-4.7 (78,5), DeepSeek V3.2 (77,3) e Kimi K2.5 (80,5)
- Com uma arquitetura esparsa MoE, apenas 11B dos 196B parâmetros são ativados, permitindo resposta em tempo real com computação eficiente
- Com base em MTP-3, alcança velocidade de geração de 100~300 tok/s em uso geral e até 350 tok/s em tarefas de coding
- Com SWE-bench Verified 74,4% e Terminal-Bench 2.0 51,0%, assegura desempenho estável em tarefas de código e agentes de longa duração
- Implementa uma janela de contexto de 256K com estrutura SWA 3:1, mantendo eficiência de custo mesmo em contextos longos
Casos reais de uso e utilização de ferramentas
- Melhora o desempenho em matemática, coding e análise de dados por meio de tool-augmented reasoning
- Com integração da execução de Python, registra pontuações aprimoradas em AIME 2025 (99,8), HMMT 2025 (98,0) e IMOAnswerBench (86,7)
- Em um cenário de investimento em ações, combina mais de 80 ferramentas MCP para automatizar coleta de dados, análise e alertas
- O Autonomous Business Intelligence Engine automatiza desde o processamento de CSV até previsões, identificando uma diferença de qualidade de dados de 1,6x
- O Large-Scale Repository Architect analisa grandes codebases para gerar uma wiki especializada que conecta padrões de arquitetura e detalhes de implementação
Pesquisa e desempenho de agentes
- No benchmark ResearchRubrics, obteve 65,3%, superando Gemini DeepResearch (63,7) e OpenAI DeepResearch (60,7)
- Em um único loop baseado em ReAct, executa planejamento, busca, verificação e redação
- No ambiente Claude Code, alcançou 39,6% em benchmark de análise de dados, ligeiramente acima de GPT-5.2 (39,3)
- Por meio de um Multi-Agent Framework, o Master Agent coordena agentes de busca, verificação e resumo para gerar resultados estruturados
- Com Cloud-Device Synergy, ao se integrar ao Step-GUI, registra 57 pontos no benchmark AndroidDaily Hard (contra 40 pontos sozinho)
Arquitetura e características técnicas
- Com um backbone Sparse MoE, separa a capacidade global (196B) da computação por token (11B), otimizando custo e velocidade de inferência
- A estrutura Sliding-Window Attention + Full Attention (3:1) mantém a eficiência no processamento de contextos longos
- Com Head-wise Gated Attention, controla dinamicamente o fluxo de informação e garante estabilidade numérica
- Alcança throughput de decodificação de 350 tok/s em GPUs NVIDIA Hopper
- Suporta inferência local (20 tok/s, contexto 256K) por meio de modelos INT4 GGUF quantizados
Framework de reinforcement learning
- Introduz Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
- Remove amostras instáveis com filtragem binária, em vez de importance sampling
- Estabiliza o raciocínio de longo prazo com truncation-aware value bootstrapping e routing confidence monitoring
- Essa estrutura viabiliza autoaperfeiçoamento contínuo em matemática, coding e uso de ferramentas de forma geral
Comparação de benchmarks
- Step 3.5 Flash apresenta desempenho de alto nível e equilibrado em três áreas: Reasoning, Coding e Agentic
- AIME 2025: 97,3 / HMMT 2025: 98,4 / LiveCodeBench-V6: 86,4
- τ²-Bench: 88,2 / BrowseComp-ZH: 66,9 / ResearchRubrics: 65,3
- O custo de decodificação é 1,0x com contexto de 128K, mais eficiente que DeepSeek V3.2 (6,0x) e Kimi K2.5 (18,9x)
Limitações e direções futuras
- Eficiência de tokens: requer gerações mais longas para atingir a mesma qualidade em comparação ao Gemini 3.0 Pro
- Integração de especialização: estão em andamento pesquisas de on-policy distillation para combinar generalidade e especialização de forma eficiente
- Expansão de RL agentic: há planos para ampliar a aplicação de RL a tarefas complexas em nível profissional e de pesquisa
- Estabilidade operacional: em conversas longas ou mudanças de domínio, pode haver raciocínio repetitivo e saída em idiomas mistos
Distribuição e acessibilidade
- Integrado à plataforma OpenClaw, pode ser usado com instalação simples e registro do modelo
- Acessível por meio da plataforma de API (em inglês/chinês) e de apps web e mobile (iOS/Android)
- Atualizações e suporte são oferecidos via comunidade no Discord
2 comentários
Esse modelo é muito bom.
Quem tiver condições de rodar com
llama.cppprecisa aplicar separadamente o prompt que está no comentário do tópico abaixo. Caso contrário, ocorre o problema de aparecer apenas um</think>solto no meio, sem o<think>de abertura.https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Comentários do Hacker News
Acho que este é um dos lançamentos de LLM mais subestimados dos últimos meses
Testei localmente com a versão quantizada em 4-bit (Step-3.5-Flash-GGUF) e ele superou até o Minimax 2.5 e o GLM-4.7 (o GLM só funcionava em 2-bit)
Os principais destaques são os seguintes
Entre os modelos na faixa de 200B de parâmetros, é o primeiro modelo local realmente utilizável em harnesses de CLI. Estou usando junto com o pi.dev e foi a melhor experiência que já tive
Como ponto negativo, há um bug de loop infinito de raciocínio (issue relacionada)
Aparentemente a StepFun também é a empresa por trás do ACEStep (modelo de geração musical), e isso também é mencionado na documentação do ComfyUI
Às vezes ele erra chamadas de ferramenta, mas com a configuração temperature=1 sugerida pelo Qwen ele não trava
O Nemotron 3 Nano tinha uso de ferramentas fraco e tendia a usar quase só a shell tool
No geral, os modelos open weight agentic tendem a não chamar bem ferramentas com as quais não estão familiarizados
Queria saber se alguém já fez essa conta
Na minha opinião, parece algo que exigiria mexer nos próprios pesos do modelo
Recentemente achei interessante ler o processo de raciocínio (reasoning) por trás do truque “Walk or drive to the carwash”
Links relacionados: gist, conversa no stepfun.ai
Dizem que ele tirou 51,0% no Terminal-Bench 2.0, mas duvido que isso realmente garanta uma capacidade estável de lidar com tarefas longas
Se olhar o leaderboard, a maior pontuação é 75%, então 51% é cerca de ⅔ do nível SOTA
O modelo pode simplesmente ter memorizado flags de comandos
Quando testei, as alucinações (hallucination) eram severas. Até em uma pergunta simples como “ache um deck campeão de Pokémon” ele foi impreciso
Opus 4.6, Deepseek e Kimi funcionaram bem, como esperado
É um modelo lançado recentemente que usa arquitetura Mixture of Experts (MoE), ativando só 11B dos 196B por token
Supera o Kimi K2.5 e o GLM 4.7 em mais benchmarks
Também pode rodar em uma máquina com 128GB na versão quantizada em 4-bit (link de referência)
Consulte a página do modelo
Os modelos recentes têm pontuação alta em benchmarks, mas isso vem acompanhado de uma explosão no uso de tokens
Para haver inovação de verdade, é preciso resolver a questão da eficiência energética
O uso eficiente da arquitetura MoE afeta tanto tokens/joule quanto tokens/sec
O SWE-bench Verified é razoável, mas precisamos de um benchmark de SWE melhor
Criar um benchmark justo custa caro em termos de execução contínua
O conceito de “benchmark ao vivo” é bom, mas não reflete suficientemente bem os modelos mais recentes
Link do documento
Acho que tokens por dólar/segundo é uma métrica mais importante do que número de parâmetros
Isso porque os modelos de ponta não oferecem suporte a inferência local
Por exemplo, o Qwen3 0.6b é excelente em tok/dollar, mas é insuficiente para a maioria dos usos
Fiz algumas observações em testes simples
Fiquei confuso porque o eixo x do gráfico está invertido