5 pontos por GN⁺ 2025-10-16 | 2 comentários | Compartilhar no WhatsApp
  • Claude Haiku 4.5 é um modelo pequeno que, apesar do porte, oferece desempenho de código no nível do Claude Sonnet 4 com um terço do custo e mais do dobro da velocidade
  • Em benchmarks reais de desenvolvimento, como o SWE-bench Verified, superou a geração anterior em eficiência e responsividade de IA para programação
  • Em conjunto com o Sonnet 4.5, permite configurações multiagente e execução dividida de problemas complexos, sendo adequado para tarefas em tempo real e ambientes de baixa latência
  • É possível perceber as vantagens de alta inteligência e velocidade em chatbots em tempo real, suporte ao cliente, pair programming e outros cenários
  • Nos testes de segurança, apresentou o maior nível de alinhamento entre os modelos da Anthropic e foi lançado sob o padrão AI Safety Level 2 (ASL-2)
  • $1/$5 por milhão de tokens de entrada/saída

Introdução

  • Claude Haiku 4.5 é a mais recente linha de modelos pequenos da Anthropic, equilibrando desempenho, velocidade e eficiência de custo para todos os usuários
  • Exibe capacidade de programação semelhante à do Claude Sonnet 4, com custo de um terço e velocidade mais de duas vezes maior
  • Em determinadas tarefas, como uso do computador, apresenta desempenho até superior ao do Sonnet 4
  • Especialmente em ferramentas em tempo real como Claude for Chrome e Claude Code, oferece um ambiente de assistência de IA sem latência

Principais características e casos de uso

  • É adequado para tarefas em tempo real e de baixa latência, mostrando alta eficiência em chatbots, atendimento ao cliente, pair programming e outros usos
  • Para usuários do Claude Code, entrega respostas rápidas e desempenho ideal em projetos multiagente, prototipagem rápida e outros cenários
  • No momento, o Sonnet 4.5 continua sendo o modelo topo de linha, mas o Haiku 4.5 oferece desempenho semelhante com alta eficiência de custo
  • Os dois modelos também podem ser usados juntos; por exemplo, o Sonnet 4.5 pode decompor um problema complexo enquanto várias instâncias do Haiku 4.5 processam subtarefas em paralelo
  • O Claude Haiku 4.5 está disponível a partir de hoje no mundo todo, e desenvolvedores já podem usá-lo diretamente na Claude API como claude-haiku-4-5
  • O preço é de $1/$5 por milhão de tokens de entrada/saída

Benchmarks e avaliação de usuários

  • O Haiku 4.5 é um dos modelos mais poderosos já lançados pela Anthropic
  • Empresas como Augment, Warp e Gamma afirmaram ter confirmado, em testes reais, mais de 90% da qualidade de código em relação ao Sonnet 4.5
  • Em programação com agentes, orquestração de subagentes e tarefas de uso do computador, mostra avanços expressivos, maximizando a sensação de imediatismo na experiência de desenvolvimento
  • Tradicionalmente havia um compromisso entre qualidade, velocidade e custo, mas o Haiku 4.5 consegue atingir tanto velocidade quanto eficiência de custo
  • Ao oferecer inteligência e resposta em tempo real ao mesmo tempo, abre espaço para novas possibilidades de aplicações de IA
  • Um desempenho que há apenas seis meses era estado da arte agora pode ser alcançado com menor custo e maior velocidade
  • Processa workflows complexos com rapidez e estabilidade, além de permitir autocorreção em tempo real
  • Em tratamento de instruções específicas, como geração de texto para slides, registrou desempenho muito superior ao dos modelos anteriores
  • Em integração com GitHub Copilot e outros, entrega qualidade de código semelhante à do Sonnet 4 com maior rapidez

Avaliação de segurança

  • Em vários testes de segurança e alinhamento, apresentou baixa taxa de comportamentos problemáticos e melhorou em alinhamento em relação à versão anterior (Claude Haiku 3.5)
  • Mostrou uma taxa de comportamento desalinhado ainda menor que a do Sonnet 4.5/Opus 4.1, sendo avaliado como o modelo mais seguro já produzido pela Anthropic
  • O risco em química, biologia, radioatividade e nuclear (CBRN) também foi avaliado como muito baixo, e por isso foi lançado sob o padrão ASL-2
  • Em comparação ao ASL-3 (Sonnet 4.5, Opus 4.1), que aplica restrições mais rígidas, pode ser usado com mais liberdade

Informações adicionais

  • O Claude Haiku 4.5 já pode ser usado diretamente no Claude Code, no app da Anthropic e em outros produtos
  • Graças ao processamento eficiente, é possível aproveitar desempenho de modelo premium dentro dos limites de uso
  • Pode ser escolhido como alternativa mais barata ao Haiku 3.5 e ao Sonnet 4 em API, Amazon Bedrock e Google Cloud Vertex AI
  • Detalhes técnicos e resultados de avaliação podem ser conferidos no system card oficial, na página de apresentação do modelo e na documentação

2 comentários

 
skageektp 2025-10-16

No Claude Code, você pode usar digitando /model haiku. É mais rápido que o Sonnet e também entrega resultados bons, então é bem prático de usar.

 
GN⁺ 2025-10-16
Comentários do Hacker News
  • Compartilhou um desenho fofo de um pelicano andando de bicicleta com uma aparência meio suspeita link

    • O Gemini Pro inicialmente se recusou a fornecer o código SVG, mas quando foi solicitado com um pouco mais de detalhe, dizendo que queria verificar se o código SVG estava correto, no fim ele retornou o código SVG
    • Para quem não conhece o contexto deste benchmark, compartilhou materiais de referência
      Six months in LLMs,
      explicação da tag pelicano andando de bicicleta,
      metodologia do benchmark
    • Para evitar manipulação do benchmark, também compartilhou uma amostra de “cogumelo shiitake andando de barco a remo”
      Shitaki Mushroom riding a rowboat
      Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69s
      E o Grok 4 Fast até vai bem no estilo pelicano+bicicleta, mas é fraco em outros pedidos
      amostra do Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5s
      Por fim, resultado do GPT-5: amostra, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5s
      É subjetivo, mas os pontinhos do cogumelo do Haiku ficaram bem impressionantes
      E a diferença de desempenho entre benchmarks públicos e cenários de teste informais é a menor nos modelos da Anthropic
      Com frequência, os modelos da Anthropic chegam até a mostrar resultados melhores fora dos benchmarks abertos
      O Time-to-First do Haiku também é uma vantagem considerável
    • Surpreende que empresas de modelos de ponta ainda não tenham colocado esse tipo de teste como easter egg
    • Os modelos de geração de imagem sempre parecem sofrer para desenhar os braços de arqueiros, então sugeriu comparar todos os modelos com um prompt de teste simples em que um arqueiro montado a cavalo dispara flechas de fogo contra um veleiro em um lago
  • Mesmo sendo um teste bem inicial, o resultado é bastante impressionante
    Diferente do GPT-5, ele altera o código com mais precisão, incluindo menos trechos desnecessários nas mudanças
    Por isso, no mundo real, o Haiku 4.5 pode acabar sendo mais barato em termos de eficiência de uso, apesar do aumento aparente de custo
    O problema é o peso da marca
    O Haiku 4.5 pode ter qualidade próxima do Sonnet 4, mas a percepção sobre modelos pequenos e algumas quedas recentes de desempenho tornam difícil escolher Haiku 4.5 em vez de Sonnet 4.5
    Fica a curiosidade se Haiku 3, 3.5 e 4.5 estão mais ou menos na mesma faixa de parâmetros; seria bom se divulgassem essas informações com transparência
    Por isso existe uma tendência psicológica de preferir modelos grandes, embora eu ache que o GPT-5 seja o mais impressionante em custo-benefício de desempenho
    Preços de referência:
    Haiku 3: entrada $0.25/M, saída $1.25/M
    Haiku 4.5: entrada $1.00/M, saída $5.00/M
    GPT-5: entrada $1.25/M, saída $10.00/M
    GPT-5-mini: entrada $0.25/M, saída $2.00/M
    GPT-5-nano: entrada $0.05/M, saída $0.40/M
    GLM-4.6: entrada $0.60/M, saída $2.20/M

    • Atualização: o Haiku 4.5 não só é preciso nas mudanças de código, como também é muito rápido
      Média de 220 token/sec, quase o dobro de modelos semelhantes
      Se essa velocidade se mantiver de forma consistente, o valor é enorme
      Como referência, é parecido com a velocidade do Gemini 2.5 Flash Lite
      Groq, Cerebras etc. chegam a 1000 token/sec, mas não são modelos comparáveis
      A Anthropic sempre foi melhor, nos meus benchmarks pessoais, do que nos benchmarks abertos, então estou animado
      Se velocidade, desempenho e preço se mantiverem no futuro, o Haiku 4.5 é uma excelente opção para a maioria dos trabalhos de programação
      O Sonnet provavelmente ficaria só para situações específicas
      No passado, modelos Claude tinham queda de desempenho em cadeias longas de tarefas (mais de 7 minutos), então isso seria um ponto fraco se o Haiku 4.5 também tiver esse problema
      Mas ainda não testei tarefas longas
      O problema é que, no Claude Code, o uso de Haiku 4.5 e Sonnet 4.5 está sendo contabilizado da mesma forma, apesar da grande diferença de preço
      A página de suporte também ainda não foi atualizada documentação de suporte
      Esse tipo de informação deveria ser comunicado já no dia do lançamento
      Sistemas de tooling, testes e comunicação como esses acabam ofuscando o ótimo desempenho dos modelos da Anthropic
    • Eu estava realmente esperando uma atualização do Haiku, e já usava as versões anteriores de forma constante por serem baratas e inteligentes
      Agora que finalmente saiu, estou aplicando o upgrade em todos os meus bots, quer dizer, agentes
    • Acho que olhar apenas o preço, sem uma média normal de uso de tokens, tem utilidade limitada
  • Hoje em dia, comparar modelos e recursos está trabalhoso e cansativo demais
    Cada ecossistema de LLM tem restrições diferentes, então é preciso ficar pulando de um para outro; pago $20 por mês tanto no Claude Code quanto no Codex
    Também uso Cursor, mas não ligo muito para qual modelo ele usa por baixo dos panos
    Só quero uma ferramenta unificada e consistente
    Quero que melhore automaticamente sem que eu precise pensar no que está acontecendo no backend
    Como um servidor TLS, queria algo integrado em CLI/Neovim/IDE em qualquer lugar

    • Mesmo quando você escolhe uma única opção, primeiro dizem que o ideal é desenvolvimento guiado por prompt, depois guiado por contexto, depois uso de especificações detalhadas, e agora dizem que o melhor é abordagem conversacional
      Aí alguém diz que é melhor ser guiado por exemplos, e embora cada abordagem tenha seus prós e contras, não existe um consenso padrão na indústria, então é difícil até encontrar bons exemplos
      Uma vez alguém respondeu com “bug-driven development”, e isso ficou na minha cabeça; no fim, acabo usando qualquer método que gere resultado e depois corrigindo os bugs e erros
    • Para mim, a prioridade máxima é ter integração utilizável em CLI, neovim ou IDE sem o estresse de trocar de ferramenta
      Por isso uso GitHub Copilot Pro+
      Quando sai um modelo novo, posso escolhê-lo imediatamente (o Claude Haiku 4.5 já apareceu)
      Nunca esgotei minha cota premium, mas também não sou um usuário pesado
      Não testei a versão CLI, mas parece interessante
      Antes de atualizarem o plugin do IntelliJ, eu mandava prompts pelo VS Code e depois voltava
      O Spaces da versão web também é útil para tarefas de nicho
      Não sei exatamente como o Copilot se compara a LLMs individuais, mas se ele aparecer só quando eu quiser e trabalhar bem em silêncio, já basta
    • Uma opção é usar o modelo openrouter/auto no OpenRouter openrouter.ai, que escolhe automaticamente entre GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 e outros
    • Também dá para abrir Codex e Claude Code ao mesmo tempo com Crystal e escolher o melhor resultado
    • Eu também uso OpenRouter por motivos parecidos
      Por um lado, para evitar lock-in; por outro, para reduzir o incômodo de trocar de ferramenta e, mesmo se houver lock-in, poder migrar com facilidade
  • Fico curioso sobre o futuro do Opus
    Será que vai continuar no nível “monstruoso” tanto em desempenho quanto em preço, ou o salto do 4 para o 4.5 vai ser mais moderado?

    • Como lançaram o Opus 4.1 recentemente, a mudança de 4.1 para 4.5 provavelmente será menor do que o upgrade de Sonnet 4 para 4.5
      Claro, não sei se essa numeração de versão realmente significa algo ou se é só marketing
    • Minha impressão é que Sonnet e Haiku 4.5 usam o mesmo modelo-base do 4, e a principal melhoria veio de fine-tuning com dados gerados pelo Opus
      Só acompanho a indústria, não sou alguém que constrói ou desenvolve isso de fato, mas fazer fine-tuning de modelos menores com modelos maiores é prática comum no setor
      Esse é o único motivo que vejo para o GPT-4 Turbo ser muito mais rápido e barato que o GPT-4 original
      O fato de a OpenAI esconder os reasoning tokens também seria uma estratégia para impedir que concorrentes treinem com esses dados
    • O Opus sumiu por um tempo e recentemente reapareceu
      Provavelmente continuam desenvolvendo três tamanhos de modelo — grande, médio e pequeno — e escolhem o momento de lançamento conforme a demanda do mercado e a capacidade dos modelos
    • Fico curioso para saber qual seria o nome de um modelo ainda menor que o Haiku. Talvez "Claude Phrase"?
  • Comparei Haiku e Sonnet em uma pergunta que exigia documentação real de código
    O Haiku inventou a própria saída de uma função e deu uma resposta errada, enquanto o Sonnet acertou

    • Resultado do Haiku: link
      Resultado do Sonnet: link
  • A tarifa de $1 de entrada e $5 de saída é barata em comparação com o Sonnet 4.5, mas hoje existem tantos LLMs pequenos e rápidos que, para programação com agentes em larga escala, modelos ainda mais baratos são importantes
    Como o Sonnet continua sendo muito usado mesmo sendo caro, o Haiku também deve ganhar bastante popularidade se a qualidade for boa

    • Com caching, o custo de entrada cai para 10 centavos por milhão
      Quase todos os modelos open source baratos não têm caching tão eficaz assim
      Isso pode ser realmente enorme
    • Sou desenvolvedor profissional e não me importo com custo
      Velocidade é muito mais importante, e eu pagaria mais pelo Haiku 4.5 do que pelo Sonnet 4.5
      Esperar pela resposta custa caro demais em tempo
      Passar de 73% no SWE Bench já é suficiente para mim
    • Do ponto de vista de uso de API, o Claude Code ficou mais caro mesmo (se você confiar só nos benchmarks, a qualidade ainda assim melhorou)
    • O Haiku 3.5 custava $0.8/$4 e o 4.5 veio a $1/$5, o que é um pouco decepcionante Neste momento, ele perde competitividade em preço para os modelos baratos da OpenAI e do Gemini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30)
  • Pelo que entendo, este é o primeiro produto small reasoner da Anthropic, e também anexaram informações do system card
    PDF do system card
    (discussão relacionada aqui)

  • No Extended NYT Connections (benchmark de quebra-cabeça de conexões), o Haiku 4.5 marcou 20.0, o Haiku 3.5 marcou 10.0, o Sonnet 3.7 marcou 19.2, o Sonnet 4.0 marcou 26.6 e o Sonnet 4.5 marcou 46.1

  • Como desenvolvedor freelancer, sinto que só o fato de a resposta estar 3x mais rápida já vale muito a pena
    Estou animado porque parece que minha produtividade vai subir bastante se eu trocar para isso em vez do claude 4.5

  • Fico me perguntando para que servem esses modelos pequenos na prática. Velocidade? Transição para on-device? Redução de tarifa de API? Se a maioria já está usando assinatura do Claude, fico na dúvida se eles têm tanta utilidade assim

    • Agora que existem GPT-5-mini e Haiku 4.5, eu perguntaria o contrário: em que casos um modelo grande ainda é necessário?
      Na nossa empresa, tirando trabalho complexo em código interno, quase tudo já é resolvido com modelos pequenos
      Ambientes expostos ao usuário e workflows como extração, transformação, tradução, mesclagem e avaliação são todos feitos por modelos mini/nano
    • No Claude Code, modelos pequenos são usados para delegação automática a partir do Sonnet 4.5 quando o contexto é claro e a tarefa é bem definida (e configurável)
      Isso ajuda bastante a economizar janela de contexto da sessão principal e aumentar a taxa de processamento de tokens
    • São ideais para criar submódulos mais especializados de tool calling acionados por modelos grandes
    • O workflow que uso com Cerebras Qwen Coder é quase em tempo real (3k tps), então parece mais um shell em linguagem natural do que um agente
      Dá para iterar rapidamente antes de montar um plano e passar para um modelo maior
    • Basta olhar o ranking de LLMs do OpenRouter para ver que a maioria dos modelos realmente usados em vibe/agentic coding é da “classe small”
      link do ranking do OpenRouter
      Claro, o Gemini 2.5 Pro também está mais alto do que eu esperava)