Anthropic apresenta o Claude Haiku 4.5

(anthropic.com)

5 pontos por GN⁺ 2025-10-16 | 2 comentários | Compartilhar no WhatsApp

Claude Haiku 4.5 é um modelo pequeno que, apesar do porte, oferece desempenho de código no nível do Claude Sonnet 4 com um terço do custo e mais do dobro da velocidade
Em benchmarks reais de desenvolvimento, como o SWE-bench Verified, superou a geração anterior em eficiência e responsividade de IA para programação
Em conjunto com o Sonnet 4.5, permite configurações multiagente e execução dividida de problemas complexos, sendo adequado para tarefas em tempo real e ambientes de baixa latência
É possível perceber as vantagens de alta inteligência e velocidade em chatbots em tempo real, suporte ao cliente, pair programming e outros cenários
Nos testes de segurança, apresentou o maior nível de alinhamento entre os modelos da Anthropic e foi lançado sob o padrão AI Safety Level 2 (ASL-2)
$1/$5 por milhão de tokens de entrada/saída

Introdução

Claude Haiku 4.5 é a mais recente linha de modelos pequenos da Anthropic, equilibrando desempenho, velocidade e eficiência de custo para todos os usuários
Exibe capacidade de programação semelhante à do Claude Sonnet 4, com custo de um terço e velocidade mais de duas vezes maior
Em determinadas tarefas, como uso do computador, apresenta desempenho até superior ao do Sonnet 4
Especialmente em ferramentas em tempo real como Claude for Chrome e Claude Code, oferece um ambiente de assistência de IA sem latência

Principais características e casos de uso

É adequado para tarefas em tempo real e de baixa latência, mostrando alta eficiência em chatbots, atendimento ao cliente, pair programming e outros usos
Para usuários do Claude Code, entrega respostas rápidas e desempenho ideal em projetos multiagente, prototipagem rápida e outros cenários
No momento, o Sonnet 4.5 continua sendo o modelo topo de linha, mas o Haiku 4.5 oferece desempenho semelhante com alta eficiência de custo
Os dois modelos também podem ser usados juntos; por exemplo, o Sonnet 4.5 pode decompor um problema complexo enquanto várias instâncias do Haiku 4.5 processam subtarefas em paralelo
O Claude Haiku 4.5 está disponível a partir de hoje no mundo todo, e desenvolvedores já podem usá-lo diretamente na Claude API como claude-haiku-4-5
O preço é de $1/$5 por milhão de tokens de entrada/saída

Benchmarks e avaliação de usuários

O Haiku 4.5 é um dos modelos mais poderosos já lançados pela Anthropic
Empresas como Augment, Warp e Gamma afirmaram ter confirmado, em testes reais, mais de 90% da qualidade de código em relação ao Sonnet 4.5
Em programação com agentes, orquestração de subagentes e tarefas de uso do computador, mostra avanços expressivos, maximizando a sensação de imediatismo na experiência de desenvolvimento
Tradicionalmente havia um compromisso entre qualidade, velocidade e custo, mas o Haiku 4.5 consegue atingir tanto velocidade quanto eficiência de custo
Ao oferecer inteligência e resposta em tempo real ao mesmo tempo, abre espaço para novas possibilidades de aplicações de IA
Um desempenho que há apenas seis meses era estado da arte agora pode ser alcançado com menor custo e maior velocidade
Processa workflows complexos com rapidez e estabilidade, além de permitir autocorreção em tempo real
Em tratamento de instruções específicas, como geração de texto para slides, registrou desempenho muito superior ao dos modelos anteriores
Em integração com GitHub Copilot e outros, entrega qualidade de código semelhante à do Sonnet 4 com maior rapidez

Avaliação de segurança

Em vários testes de segurança e alinhamento, apresentou baixa taxa de comportamentos problemáticos e melhorou em alinhamento em relação à versão anterior (Claude Haiku 3.5)
Mostrou uma taxa de comportamento desalinhado ainda menor que a do Sonnet 4.5/Opus 4.1, sendo avaliado como o modelo mais seguro já produzido pela Anthropic
O risco em química, biologia, radioatividade e nuclear (CBRN) também foi avaliado como muito baixo, e por isso foi lançado sob o padrão ASL-2
Em comparação ao ASL-3 (Sonnet 4.5, Opus 4.1), que aplica restrições mais rígidas, pode ser usado com mais liberdade

Informações adicionais

O Claude Haiku 4.5 já pode ser usado diretamente no Claude Code, no app da Anthropic e em outros produtos
Graças ao processamento eficiente, é possível aproveitar desempenho de modelo premium dentro dos limites de uso
Pode ser escolhido como alternativa mais barata ao Haiku 3.5 e ao Sonnet 4 em API, Amazon Bedrock e Google Cloud Vertex AI
Detalhes técnicos e resultados de avaliação podem ser conferidos no system card oficial, na página de apresentação do modelo e na documentação

2 comentários

skageektp 2025-10-16

No Claude Code, você pode usar digitando /model haiku. É mais rápido que o Sonnet e também entrega resultados bons, então é bem prático de usar.

GN⁺ 2025-10-16

Comentários do Hacker News

Compartilhou um desenho fofo de um pelicano andando de bicicleta com uma aparência meio suspeita link
- O Gemini Pro inicialmente se recusou a fornecer o código SVG, mas quando foi solicitado com um pouco mais de detalhe, dizendo que queria verificar se o código SVG estava correto, no fim ele retornou o código SVG
- Para quem não conhece o contexto deste benchmark, compartilhou materiais de referência
  Six months in LLMs,
  explicação da tag pelicano andando de bicicleta,
  metodologia do benchmark
- Para evitar manipulação do benchmark, também compartilhou uma amostra de “cogumelo shiitake andando de barco a remo”
  Shitaki Mushroom riding a rowboat
  Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69s
  E o Grok 4 Fast até vai bem no estilo pelicano+bicicleta, mas é fraco em outros pedidos
  amostra do Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5s
  Por fim, resultado do GPT-5: amostra, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5s
  É subjetivo, mas os pontinhos do cogumelo do Haiku ficaram bem impressionantes
  E a diferença de desempenho entre benchmarks públicos e cenários de teste informais é a menor nos modelos da Anthropic
  Com frequência, os modelos da Anthropic chegam até a mostrar resultados melhores fora dos benchmarks abertos
  O Time-to-First do Haiku também é uma vantagem considerável
- Surpreende que empresas de modelos de ponta ainda não tenham colocado esse tipo de teste como easter egg
- Os modelos de geração de imagem sempre parecem sofrer para desenhar os braços de arqueiros, então sugeriu comparar todos os modelos com um prompt de teste simples em que um arqueiro montado a cavalo dispara flechas de fogo contra um veleiro em um lago
Mesmo sendo um teste bem inicial, o resultado é bastante impressionante
Diferente do GPT-5, ele altera o código com mais precisão, incluindo menos trechos desnecessários nas mudanças
Por isso, no mundo real, o Haiku 4.5 pode acabar sendo mais barato em termos de eficiência de uso, apesar do aumento aparente de custo
O problema é o peso da marca
O Haiku 4.5 pode ter qualidade próxima do Sonnet 4, mas a percepção sobre modelos pequenos e algumas quedas recentes de desempenho tornam difícil escolher Haiku 4.5 em vez de Sonnet 4.5
Fica a curiosidade se Haiku 3, 3.5 e 4.5 estão mais ou menos na mesma faixa de parâmetros; seria bom se divulgassem essas informações com transparência
Por isso existe uma tendência psicológica de preferir modelos grandes, embora eu ache que o GPT-5 seja o mais impressionante em custo-benefício de desempenho
Preços de referência:
Haiku 3: entrada $0.25/M, saída $1.25/M
Haiku 4.5: entrada $1.00/M, saída $5.00/M
GPT-5: entrada $1.25/M, saída $10.00/M
GPT-5-mini: entrada $0.25/M, saída $2.00/M
GPT-5-nano: entrada $0.05/M, saída $0.40/M
GLM-4.6: entrada $0.60/M, saída $2.20/M
- Atualização: o Haiku 4.5 não só é preciso nas mudanças de código, como também é muito rápido
  Média de 220 token/sec, quase o dobro de modelos semelhantes
  Se essa velocidade se mantiver de forma consistente, o valor é enorme
  Como referência, é parecido com a velocidade do Gemini 2.5 Flash Lite
  Groq, Cerebras etc. chegam a 1000 token/sec, mas não são modelos comparáveis
  A Anthropic sempre foi melhor, nos meus benchmarks pessoais, do que nos benchmarks abertos, então estou animado
  Se velocidade, desempenho e preço se mantiverem no futuro, o Haiku 4.5 é uma excelente opção para a maioria dos trabalhos de programação
  O Sonnet provavelmente ficaria só para situações específicas
  No passado, modelos Claude tinham queda de desempenho em cadeias longas de tarefas (mais de 7 minutos), então isso seria um ponto fraco se o Haiku 4.5 também tiver esse problema
  Mas ainda não testei tarefas longas
  O problema é que, no Claude Code, o uso de Haiku 4.5 e Sonnet 4.5 está sendo contabilizado da mesma forma, apesar da grande diferença de preço
  A página de suporte também ainda não foi atualizada documentação de suporte
  Esse tipo de informação deveria ser comunicado já no dia do lançamento
  Sistemas de tooling, testes e comunicação como esses acabam ofuscando o ótimo desempenho dos modelos da Anthropic
- Eu estava realmente esperando uma atualização do Haiku, e já usava as versões anteriores de forma constante por serem baratas e inteligentes
  Agora que finalmente saiu, estou aplicando o upgrade em todos os meus bots, quer dizer, agentes
- Acho que olhar apenas o preço, sem uma média normal de uso de tokens, tem utilidade limitada
Hoje em dia, comparar modelos e recursos está trabalhoso e cansativo demais
Cada ecossistema de LLM tem restrições diferentes, então é preciso ficar pulando de um para outro; pago $20 por mês tanto no Claude Code quanto no Codex
Também uso Cursor, mas não ligo muito para qual modelo ele usa por baixo dos panos
Só quero uma ferramenta unificada e consistente
Quero que melhore automaticamente sem que eu precise pensar no que está acontecendo no backend
Como um servidor TLS, queria algo integrado em CLI/Neovim/IDE em qualquer lugar
- Mesmo quando você escolhe uma única opção, primeiro dizem que o ideal é desenvolvimento guiado por prompt, depois guiado por contexto, depois uso de especificações detalhadas, e agora dizem que o melhor é abordagem conversacional
  Aí alguém diz que é melhor ser guiado por exemplos, e embora cada abordagem tenha seus prós e contras, não existe um consenso padrão na indústria, então é difícil até encontrar bons exemplos
  Uma vez alguém respondeu com “bug-driven development”, e isso ficou na minha cabeça; no fim, acabo usando qualquer método que gere resultado e depois corrigindo os bugs e erros
- Para mim, a prioridade máxima é ter integração utilizável em CLI, neovim ou IDE sem o estresse de trocar de ferramenta
  Por isso uso GitHub Copilot Pro+
  Quando sai um modelo novo, posso escolhê-lo imediatamente (o Claude Haiku 4.5 já apareceu)
  Nunca esgotei minha cota premium, mas também não sou um usuário pesado
  Não testei a versão CLI, mas parece interessante
  Antes de atualizarem o plugin do IntelliJ, eu mandava prompts pelo VS Code e depois voltava
  O Spaces da versão web também é útil para tarefas de nicho
  Não sei exatamente como o Copilot se compara a LLMs individuais, mas se ele aparecer só quando eu quiser e trabalhar bem em silêncio, já basta
- Uma opção é usar o modelo openrouter/auto no OpenRouter openrouter.ai, que escolhe automaticamente entre GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 e outros
- Também dá para abrir Codex e Claude Code ao mesmo tempo com Crystal e escolher o melhor resultado
- Eu também uso OpenRouter por motivos parecidos
  Por um lado, para evitar lock-in; por outro, para reduzir o incômodo de trocar de ferramenta e, mesmo se houver lock-in, poder migrar com facilidade
Fico curioso sobre o futuro do Opus
Será que vai continuar no nível “monstruoso” tanto em desempenho quanto em preço, ou o salto do 4 para o 4.5 vai ser mais moderado?
- Como lançaram o Opus 4.1 recentemente, a mudança de 4.1 para 4.5 provavelmente será menor do que o upgrade de Sonnet 4 para 4.5
  Claro, não sei se essa numeração de versão realmente significa algo ou se é só marketing
- Minha impressão é que Sonnet e Haiku 4.5 usam o mesmo modelo-base do 4, e a principal melhoria veio de fine-tuning com dados gerados pelo Opus
  Só acompanho a indústria, não sou alguém que constrói ou desenvolve isso de fato, mas fazer fine-tuning de modelos menores com modelos maiores é prática comum no setor
  Esse é o único motivo que vejo para o GPT-4 Turbo ser muito mais rápido e barato que o GPT-4 original
  O fato de a OpenAI esconder os reasoning tokens também seria uma estratégia para impedir que concorrentes treinem com esses dados
- O Opus sumiu por um tempo e recentemente reapareceu
  Provavelmente continuam desenvolvendo três tamanhos de modelo — grande, médio e pequeno — e escolhem o momento de lançamento conforme a demanda do mercado e a capacidade dos modelos
- Fico curioso para saber qual seria o nome de um modelo ainda menor que o Haiku. Talvez "Claude Phrase"?
Comparei Haiku e Sonnet em uma pergunta que exigia documentação real de código
O Haiku inventou a própria saída de uma função e deu uma resposta errada, enquanto o Sonnet acertou
- Resultado do Haiku: link
  Resultado do Sonnet: link
A tarifa de $1 de entrada e $5 de saída é barata em comparação com o Sonnet 4.5, mas hoje existem tantos LLMs pequenos e rápidos que, para programação com agentes em larga escala, modelos ainda mais baratos são importantes
Como o Sonnet continua sendo muito usado mesmo sendo caro, o Haiku também deve ganhar bastante popularidade se a qualidade for boa
- Com caching, o custo de entrada cai para 10 centavos por milhão
  Quase todos os modelos open source baratos não têm caching tão eficaz assim
  Isso pode ser realmente enorme
- Sou desenvolvedor profissional e não me importo com custo
  Velocidade é muito mais importante, e eu pagaria mais pelo Haiku 4.5 do que pelo Sonnet 4.5
  Esperar pela resposta custa caro demais em tempo
  Passar de 73% no SWE Bench já é suficiente para mim
- Do ponto de vista de uso de API, o Claude Code ficou mais caro mesmo (se você confiar só nos benchmarks, a qualidade ainda assim melhorou)
- O Haiku 3.5 custava $0.8/$4 e o 4.5 veio a $1/$5, o que é um pouco decepcionante Neste momento, ele perde competitividade em preço para os modelos baratos da OpenAI e do Gemini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30)
Pelo que entendo, este é o primeiro produto small reasoner da Anthropic, e também anexaram informações do system card
PDF do system card
(discussão relacionada aqui)
No Extended NYT Connections (benchmark de quebra-cabeça de conexões), o Haiku 4.5 marcou 20.0, o Haiku 3.5 marcou 10.0, o Sonnet 3.7 marcou 19.2, o Sonnet 4.0 marcou 26.6 e o Sonnet 4.5 marcou 46.1
Como desenvolvedor freelancer, sinto que só o fato de a resposta estar 3x mais rápida já vale muito a pena
Estou animado porque parece que minha produtividade vai subir bastante se eu trocar para isso em vez do claude 4.5
Fico me perguntando para que servem esses modelos pequenos na prática. Velocidade? Transição para on-device? Redução de tarifa de API? Se a maioria já está usando assinatura do Claude, fico na dúvida se eles têm tanta utilidade assim
- Agora que existem GPT-5-mini e Haiku 4.5, eu perguntaria o contrário: em que casos um modelo grande ainda é necessário?
  Na nossa empresa, tirando trabalho complexo em código interno, quase tudo já é resolvido com modelos pequenos
  Ambientes expostos ao usuário e workflows como extração, transformação, tradução, mesclagem e avaliação são todos feitos por modelos mini/nano
- No Claude Code, modelos pequenos são usados para delegação automática a partir do Sonnet 4.5 quando o contexto é claro e a tarefa é bem definida (e configurável)
  Isso ajuda bastante a economizar janela de contexto da sessão principal e aumentar a taxa de processamento de tokens
- São ideais para criar submódulos mais especializados de tool calling acionados por modelos grandes
- O workflow que uso com Cerebras Qwen Coder é quase em tempo real (3k tps), então parece mais um shell em linguagem natural do que um agente
  Dá para iterar rapidamente antes de montar um plano e passar para um modelo maior
- Basta olhar o ranking de LLMs do OpenRouter para ver que a maioria dos modelos realmente usados em vibe/agentic coding é da “classe small”
  link do ranking do OpenRouter
  Claro, o Gemini 2.5 Pro também está mais alto do que eu esperava)