20 pontos por GN⁺ 2026-02-20 | 2 comentários | Compartilhar no WhatsApp
  • Com uma arquitetura esparsa Mixture of Experts que ativa apenas 11 bilhões dos 196 bilhões de parâmetros, oferece inferência de alta velocidade e interações em tempo real
  • Alcança velocidade de geração de até 350 tokens por segundo e uma janela de contexto de 256K
  • Com SWE-bench Verified 74,4%, apresenta desempenho estável em benchmarks de coding e agentes, e também pode rodar em ambientes locais (Mac Studio M4 Max, NVIDIA DGX Spark)
  • Por meio de raciocínio baseado no uso de ferramentas e orquestração multiagente, comprova alta confiabilidade e capacidade de execução em cenários reais de trabalho, como finanças, análise de dados e automação de pesquisa
  • Com a técnica de otimização MIS-PO baseada em reinforcement learning, garante estabilidade em raciocínio de longo prazo e oferece capacidades de raciocínio e ação de nível frontier com custo inferior ao de modelos de alto desempenho

Visão geral do modelo e desempenho

  • Step 3.5 Flash é um foundation model open source que combina inferência de alta velocidade e capacidades de agente, registrando pontuação média de 81,0 em benchmarks
    • Pontuação média superior à de modelos principais como GLM-4.7 (78,5), DeepSeek V3.2 (77,3) e Kimi K2.5 (80,5)
  • Com uma arquitetura esparsa MoE, apenas 11B dos 196B parâmetros são ativados, permitindo resposta em tempo real com computação eficiente
  • Com base em MTP-3, alcança velocidade de geração de 100~300 tok/s em uso geral e até 350 tok/s em tarefas de coding
  • Com SWE-bench Verified 74,4% e Terminal-Bench 2.0 51,0%, assegura desempenho estável em tarefas de código e agentes de longa duração
  • Implementa uma janela de contexto de 256K com estrutura SWA 3:1, mantendo eficiência de custo mesmo em contextos longos

Casos reais de uso e utilização de ferramentas

  • Melhora o desempenho em matemática, coding e análise de dados por meio de tool-augmented reasoning
    • Com integração da execução de Python, registra pontuações aprimoradas em AIME 2025 (99,8), HMMT 2025 (98,0) e IMOAnswerBench (86,7)
  • Em um cenário de investimento em ações, combina mais de 80 ferramentas MCP para automatizar coleta de dados, análise e alertas
  • O Autonomous Business Intelligence Engine automatiza desde o processamento de CSV até previsões, identificando uma diferença de qualidade de dados de 1,6x
  • O Large-Scale Repository Architect analisa grandes codebases para gerar uma wiki especializada que conecta padrões de arquitetura e detalhes de implementação

Pesquisa e desempenho de agentes

  • No benchmark ResearchRubrics, obteve 65,3%, superando Gemini DeepResearch (63,7) e OpenAI DeepResearch (60,7)
    • Em um único loop baseado em ReAct, executa planejamento, busca, verificação e redação
  • No ambiente Claude Code, alcançou 39,6% em benchmark de análise de dados, ligeiramente acima de GPT-5.2 (39,3)
  • Por meio de um Multi-Agent Framework, o Master Agent coordena agentes de busca, verificação e resumo para gerar resultados estruturados
  • Com Cloud-Device Synergy, ao se integrar ao Step-GUI, registra 57 pontos no benchmark AndroidDaily Hard (contra 40 pontos sozinho)

Arquitetura e características técnicas

  • Com um backbone Sparse MoE, separa a capacidade global (196B) da computação por token (11B), otimizando custo e velocidade de inferência
  • A estrutura Sliding-Window Attention + Full Attention (3:1) mantém a eficiência no processamento de contextos longos
  • Com Head-wise Gated Attention, controla dinamicamente o fluxo de informação e garante estabilidade numérica
  • Alcança throughput de decodificação de 350 tok/s em GPUs NVIDIA Hopper
  • Suporta inferência local (20 tok/s, contexto 256K) por meio de modelos INT4 GGUF quantizados

Framework de reinforcement learning

  • Introduz Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)
    • Remove amostras instáveis com filtragem binária, em vez de importance sampling
    • Estabiliza o raciocínio de longo prazo com truncation-aware value bootstrapping e routing confidence monitoring
  • Essa estrutura viabiliza autoaperfeiçoamento contínuo em matemática, coding e uso de ferramentas de forma geral

Comparação de benchmarks

  • Step 3.5 Flash apresenta desempenho de alto nível e equilibrado em três áreas: Reasoning, Coding e Agentic
    • AIME 2025: 97,3 / HMMT 2025: 98,4 / LiveCodeBench-V6: 86,4
    • τ²-Bench: 88,2 / BrowseComp-ZH: 66,9 / ResearchRubrics: 65,3
  • O custo de decodificação é 1,0x com contexto de 128K, mais eficiente que DeepSeek V3.2 (6,0x) e Kimi K2.5 (18,9x)

Limitações e direções futuras

  • Eficiência de tokens: requer gerações mais longas para atingir a mesma qualidade em comparação ao Gemini 3.0 Pro
  • Integração de especialização: estão em andamento pesquisas de on-policy distillation para combinar generalidade e especialização de forma eficiente
  • Expansão de RL agentic: há planos para ampliar a aplicação de RL a tarefas complexas em nível profissional e de pesquisa
  • Estabilidade operacional: em conversas longas ou mudanças de domínio, pode haver raciocínio repetitivo e saída em idiomas mistos

Distribuição e acessibilidade

  • Integrado à plataforma OpenClaw, pode ser usado com instalação simples e registro do modelo
  • Acessível por meio da plataforma de API (em inglês/chinês) e de apps web e mobile (iOS/Android)
  • Atualizações e suporte são oferecidos via comunidade no Discord

2 comentários

 
sftblw 2026-02-20

Esse modelo é muito bom.
Quem tiver condições de rodar com llama.cpp precisa aplicar separadamente o prompt que está no comentário do tópico abaixo. Caso contrário, ocorre o problema de aparecer apenas um </think> solto no meio, sem o <think> de abertura.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  opção omitida \  
  --jinja \  
  --chat-template-file caminho/step3p5_flash_chat_template.jinja  
 
GN⁺ 2026-02-20
Comentários do Hacker News
  • Acho que este é um dos lançamentos de LLM mais subestimados dos últimos meses
    Testei localmente com a versão quantizada em 4-bit (Step-3.5-Flash-GGUF) e ele superou até o Minimax 2.5 e o GLM-4.7 (o GLM só funcionava em 2-bit)
    Os principais destaques são os seguintes

    • A eficiência de contexto é muito alta. Em um Mac com 128GB, dá para rodar todo o contexto de 256k ou dois fluxos de 128k ao mesmo tempo
    • A velocidade também é boa no M1 Ultra (36 t/s tg, 300 t/s pp), e a queda de desempenho é gradual mesmo quando o contexto aumenta
    • É otimizado para agentic coding e parece ter sido treinado para ser compatível com o Claude Code. A única exceção é o Codex por causa de problemas na ferramenta de edição de patches
      Entre os modelos na faixa de 200B de parâmetros, é o primeiro modelo local realmente utilizável em harnesses de CLI. Estou usando junto com o pi.dev e foi a melhor experiência que já tive
      Como ponto negativo, há um bug de loop infinito de raciocínio (issue relacionada)
      Aparentemente a StepFun também é a empresa por trás do ACEStep (modelo de geração musical), e isso também é mencionado na documentação do ComfyUI
    • Testei o Qwen3 Coder Next com o OpenCode e funcionou muito bem
      Às vezes ele erra chamadas de ferramenta, mas com a configuração temperature=1 sugerida pelo Qwen ele não trava
      O Nemotron 3 Nano tinha uso de ferramentas fraco e tendia a usar quase só a shell tool
      No geral, os modelos open weight agentic tendem a não chamar bem ferramentas com as quais não estão familiarizados
    • Fiquei curioso se rodar modelos OSS em um M3 Ultra (512GB RAM) seria mais econômico do que assinar Claude ou Codex
      Queria saber se alguém já fez essa conta
    • Fiquei curioso se o problema de loop infinito de raciocínio poderia ser resolvido trocando o engine de inferência
      Na minha opinião, parece algo que exigiria mexer nos próprios pesos do modelo
    • Queria saber se alguém testou a versão em MLX. Em teoria deve ser mais rápida, mas fico receoso de baixar várias versões
    • gpt-oss 120b e 20b também funcionaram bem com o Codex
  • Recentemente achei interessante ler o processo de raciocínio (reasoning) por trás do truque “Walk or drive to the carwash”
    Links relacionados: gist, conversa no stepfun.ai

  • Dizem que ele tirou 51,0% no Terminal-Bench 2.0, mas duvido que isso realmente garanta uma capacidade estável de lidar com tarefas longas

    • O número de 51% por si só não significa muito. Esses benchmarks usam pontuação absoluta, então 100% não representa desempenho humano
      Se olhar o leaderboard, a maior pontuação é 75%, então 51% é cerca de ⅔ do nível SOTA
    • Essa pontuação é parecida com a do Gemini 3 Flash, mas na prática parece que a configuração do agente influencia mais o resultado do que o modelo em si
    • Apesar do nome, o TerminalBench quase não tem relação com terminal e está mais para um teste de sintaxe aleatória de ferramentas
      O modelo pode simplesmente ter memorizado flags de comandos
  • Quando testei, as alucinações (hallucination) eram severas. Até em uma pergunta simples como “ache um deck campeão de Pokémon” ele foi impreciso
    Opus 4.6, Deepseek e Kimi funcionaram bem, como esperado

    • Acho melhor usar modelos de porte médio para execução
    • Modelos como o Gemini podem ter sido mais rápidos e precisos por usarem recursos de busca ativamente
  • É um modelo lançado recentemente que usa arquitetura Mixture of Experts (MoE), ativando só 11B dos 196B por token
    Supera o Kimi K2.5 e o GLM 4.7 em mais benchmarks
    Também pode rodar em uma máquina com 128GB na versão quantizada em 4-bit (link de referência)

    • Fico em dúvida se essa vantagem em benchmark realmente significa algo. Eu dou mais importância a seguir instruções, raciocínio em contexto longo e ausência de alucinação
    • Fiquei curioso sobre qual é melhor entre Q4_K_S(116GB), IQ4_NL(112GB) e Q4_0(113GB)
      Consulte a página do modelo
  • Os modelos recentes têm pontuação alta em benchmarks, mas isso vem acompanhado de uma explosão no uso de tokens
    Para haver inovação de verdade, é preciso resolver a questão da eficiência energética

    • Não é só a quantidade de tokens que importa, mas também a eficiência energética por token (tokens/joule)
      O uso eficiente da arquitetura MoE afeta tanto tokens/joule quanto tokens/sec
  • O SWE-bench Verified é razoável, mas precisamos de um benchmark de SWE melhor
    Criar um benchmark justo custa caro em termos de execução contínua
    O conceito de “benchmark ao vivo” é bom, mas não reflete suficientemente bem os modelos mais recentes

    • Houve uma sugestão para participar do desenvolvimento do Terminal Bench 3.0
      Link do documento
  • Acho que tokens por dólar/segundo é uma métrica mais importante do que número de parâmetros
    Isso porque os modelos de ponta não oferecem suporte a inferência local

    • Se for um modelo open source, o número de parâmetros também importa para quem considera self-hosting
    • O número de parâmetros ainda é um indicador aproximado do desempenho do modelo
      Por exemplo, o Qwen3 0.6b é excelente em tok/dollar, mas é insuficiente para a maioria dos usos
    • Este modelo é relevante porque pode rodar localmente até em uma máquina abaixo de $3.000
  • Fiz algumas observações em testes simples

    1. O trace de saída era muito prolixo e os parágrafos eram curtos, em estilo LinkedIn
    2. A velocidade de saída de tokens na versão hospedada era muito alta
    3. A aderência às instruções e a qualidade da saída eram superiores às de modelos principais como o Opus 4.5
  • Fiquei confuso porque o eixo x do gráfico está invertido

    • Pensei a mesma coisa. Não faço ideia de por que fizeram isso
    • Talvez tenham tentado fazer o gráfico parecer melhor, mas na prática não ficou assim