- Claude Haiku 4.5 é um modelo pequeno que, apesar do porte, oferece desempenho de código no nível do Claude Sonnet 4 com um terço do custo e mais do dobro da velocidade
- Em benchmarks reais de desenvolvimento, como o SWE-bench Verified, superou a geração anterior em eficiência e responsividade de IA para programação
- Em conjunto com o Sonnet 4.5, permite configurações multiagente e execução dividida de problemas complexos, sendo adequado para tarefas em tempo real e ambientes de baixa latência
- É possível perceber as vantagens de alta inteligência e velocidade em chatbots em tempo real, suporte ao cliente, pair programming e outros cenários
- Nos testes de segurança, apresentou o maior nível de alinhamento entre os modelos da Anthropic e foi lançado sob o padrão AI Safety Level 2 (ASL-2)
- $1/$5 por milhão de tokens de entrada/saída
Introdução
- Claude Haiku 4.5 é a mais recente linha de modelos pequenos da Anthropic, equilibrando desempenho, velocidade e eficiência de custo para todos os usuários
- Exibe capacidade de programação semelhante à do Claude Sonnet 4, com custo de um terço e velocidade mais de duas vezes maior
- Em determinadas tarefas, como uso do computador, apresenta desempenho até superior ao do Sonnet 4
- Especialmente em ferramentas em tempo real como Claude for Chrome e Claude Code, oferece um ambiente de assistência de IA sem latência
Principais características e casos de uso
- É adequado para tarefas em tempo real e de baixa latência, mostrando alta eficiência em chatbots, atendimento ao cliente, pair programming e outros usos
- Para usuários do Claude Code, entrega respostas rápidas e desempenho ideal em projetos multiagente, prototipagem rápida e outros cenários
- No momento, o Sonnet 4.5 continua sendo o modelo topo de linha, mas o Haiku 4.5 oferece desempenho semelhante com alta eficiência de custo
- Os dois modelos também podem ser usados juntos; por exemplo, o Sonnet 4.5 pode decompor um problema complexo enquanto várias instâncias do Haiku 4.5 processam subtarefas em paralelo
- O Claude Haiku 4.5 está disponível a partir de hoje no mundo todo, e desenvolvedores já podem usá-lo diretamente na Claude API como
claude-haiku-4-5
- O preço é de $1/$5 por milhão de tokens de entrada/saída
Benchmarks e avaliação de usuários
- O Haiku 4.5 é um dos modelos mais poderosos já lançados pela Anthropic
- Empresas como Augment, Warp e Gamma afirmaram ter confirmado, em testes reais, mais de 90% da qualidade de código em relação ao Sonnet 4.5
- Em programação com agentes, orquestração de subagentes e tarefas de uso do computador, mostra avanços expressivos, maximizando a sensação de imediatismo na experiência de desenvolvimento
- Tradicionalmente havia um compromisso entre qualidade, velocidade e custo, mas o Haiku 4.5 consegue atingir tanto velocidade quanto eficiência de custo
- Ao oferecer inteligência e resposta em tempo real ao mesmo tempo, abre espaço para novas possibilidades de aplicações de IA
- Um desempenho que há apenas seis meses era estado da arte agora pode ser alcançado com menor custo e maior velocidade
- Processa workflows complexos com rapidez e estabilidade, além de permitir autocorreção em tempo real
- Em tratamento de instruções específicas, como geração de texto para slides, registrou desempenho muito superior ao dos modelos anteriores
- Em integração com GitHub Copilot e outros, entrega qualidade de código semelhante à do Sonnet 4 com maior rapidez
Avaliação de segurança
- Em vários testes de segurança e alinhamento, apresentou baixa taxa de comportamentos problemáticos e melhorou em alinhamento em relação à versão anterior (Claude Haiku 3.5)
- Mostrou uma taxa de comportamento desalinhado ainda menor que a do Sonnet 4.5/Opus 4.1, sendo avaliado como o modelo mais seguro já produzido pela Anthropic
- O risco em química, biologia, radioatividade e nuclear (CBRN) também foi avaliado como muito baixo, e por isso foi lançado sob o padrão ASL-2
- Em comparação ao ASL-3 (Sonnet 4.5, Opus 4.1), que aplica restrições mais rígidas, pode ser usado com mais liberdade
Informações adicionais
- O Claude Haiku 4.5 já pode ser usado diretamente no Claude Code, no app da Anthropic e em outros produtos
- Graças ao processamento eficiente, é possível aproveitar desempenho de modelo premium dentro dos limites de uso
- Pode ser escolhido como alternativa mais barata ao Haiku 3.5 e ao Sonnet 4 em API, Amazon Bedrock e Google Cloud Vertex AI
- Detalhes técnicos e resultados de avaliação podem ser conferidos no system card oficial, na página de apresentação do modelo e na documentação
2 comentários
No Claude Code, você pode usar digitando
/model haiku. É mais rápido que o Sonnet e também entrega resultados bons, então é bem prático de usar.Comentários do Hacker News
Compartilhou um desenho fofo de um pelicano andando de bicicleta com uma aparência meio suspeita link
Six months in LLMs,
explicação da tag pelicano andando de bicicleta,
metodologia do benchmark
Shitaki Mushroom riding a rowboat
Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69s
E o Grok 4 Fast até vai bem no estilo pelicano+bicicleta, mas é fraco em outros pedidos
amostra do Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5s
Por fim, resultado do GPT-5: amostra, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5s
É subjetivo, mas os pontinhos do cogumelo do Haiku ficaram bem impressionantes
E a diferença de desempenho entre benchmarks públicos e cenários de teste informais é a menor nos modelos da Anthropic
Com frequência, os modelos da Anthropic chegam até a mostrar resultados melhores fora dos benchmarks abertos
O Time-to-First do Haiku também é uma vantagem considerável
Mesmo sendo um teste bem inicial, o resultado é bastante impressionante
Diferente do GPT-5, ele altera o código com mais precisão, incluindo menos trechos desnecessários nas mudanças
Por isso, no mundo real, o Haiku 4.5 pode acabar sendo mais barato em termos de eficiência de uso, apesar do aumento aparente de custo
O problema é o peso da marca
O Haiku 4.5 pode ter qualidade próxima do Sonnet 4, mas a percepção sobre modelos pequenos e algumas quedas recentes de desempenho tornam difícil escolher Haiku 4.5 em vez de Sonnet 4.5
Fica a curiosidade se Haiku 3, 3.5 e 4.5 estão mais ou menos na mesma faixa de parâmetros; seria bom se divulgassem essas informações com transparência
Por isso existe uma tendência psicológica de preferir modelos grandes, embora eu ache que o GPT-5 seja o mais impressionante em custo-benefício de desempenho
Preços de referência:
Haiku 3: entrada $0.25/M, saída $1.25/M
Haiku 4.5: entrada $1.00/M, saída $5.00/M
GPT-5: entrada $1.25/M, saída $10.00/M
GPT-5-mini: entrada $0.25/M, saída $2.00/M
GPT-5-nano: entrada $0.05/M, saída $0.40/M
GLM-4.6: entrada $0.60/M, saída $2.20/M
Média de 220 token/sec, quase o dobro de modelos semelhantes
Se essa velocidade se mantiver de forma consistente, o valor é enorme
Como referência, é parecido com a velocidade do Gemini 2.5 Flash Lite
Groq, Cerebras etc. chegam a 1000 token/sec, mas não são modelos comparáveis
A Anthropic sempre foi melhor, nos meus benchmarks pessoais, do que nos benchmarks abertos, então estou animado
Se velocidade, desempenho e preço se mantiverem no futuro, o Haiku 4.5 é uma excelente opção para a maioria dos trabalhos de programação
O Sonnet provavelmente ficaria só para situações específicas
No passado, modelos Claude tinham queda de desempenho em cadeias longas de tarefas (mais de 7 minutos), então isso seria um ponto fraco se o Haiku 4.5 também tiver esse problema
Mas ainda não testei tarefas longas
O problema é que, no Claude Code, o uso de Haiku 4.5 e Sonnet 4.5 está sendo contabilizado da mesma forma, apesar da grande diferença de preço
A página de suporte também ainda não foi atualizada documentação de suporte
Esse tipo de informação deveria ser comunicado já no dia do lançamento
Sistemas de tooling, testes e comunicação como esses acabam ofuscando o ótimo desempenho dos modelos da Anthropic
Agora que finalmente saiu, estou aplicando o upgrade em todos os meus bots, quer dizer, agentes
Hoje em dia, comparar modelos e recursos está trabalhoso e cansativo demais
Cada ecossistema de LLM tem restrições diferentes, então é preciso ficar pulando de um para outro; pago $20 por mês tanto no Claude Code quanto no Codex
Também uso Cursor, mas não ligo muito para qual modelo ele usa por baixo dos panos
Só quero uma ferramenta unificada e consistente
Quero que melhore automaticamente sem que eu precise pensar no que está acontecendo no backend
Como um servidor TLS, queria algo integrado em CLI/Neovim/IDE em qualquer lugar
Aí alguém diz que é melhor ser guiado por exemplos, e embora cada abordagem tenha seus prós e contras, não existe um consenso padrão na indústria, então é difícil até encontrar bons exemplos
Uma vez alguém respondeu com “bug-driven development”, e isso ficou na minha cabeça; no fim, acabo usando qualquer método que gere resultado e depois corrigindo os bugs e erros
Por isso uso GitHub Copilot Pro+
Quando sai um modelo novo, posso escolhê-lo imediatamente (o Claude Haiku 4.5 já apareceu)
Nunca esgotei minha cota premium, mas também não sou um usuário pesado
Não testei a versão CLI, mas parece interessante
Antes de atualizarem o plugin do IntelliJ, eu mandava prompts pelo VS Code e depois voltava
O
Spacesda versão web também é útil para tarefas de nichoNão sei exatamente como o Copilot se compara a LLMs individuais, mas se ele aparecer só quando eu quiser e trabalhar bem em silêncio, já basta
Por um lado, para evitar lock-in; por outro, para reduzir o incômodo de trocar de ferramenta e, mesmo se houver lock-in, poder migrar com facilidade
Fico curioso sobre o futuro do Opus
Será que vai continuar no nível “monstruoso” tanto em desempenho quanto em preço, ou o salto do 4 para o 4.5 vai ser mais moderado?
Claro, não sei se essa numeração de versão realmente significa algo ou se é só marketing
Só acompanho a indústria, não sou alguém que constrói ou desenvolve isso de fato, mas fazer fine-tuning de modelos menores com modelos maiores é prática comum no setor
Esse é o único motivo que vejo para o GPT-4 Turbo ser muito mais rápido e barato que o GPT-4 original
O fato de a OpenAI esconder os reasoning tokens também seria uma estratégia para impedir que concorrentes treinem com esses dados
Provavelmente continuam desenvolvendo três tamanhos de modelo — grande, médio e pequeno — e escolhem o momento de lançamento conforme a demanda do mercado e a capacidade dos modelos
Comparei Haiku e Sonnet em uma pergunta que exigia documentação real de código
O Haiku inventou a própria saída de uma função e deu uma resposta errada, enquanto o Sonnet acertou
Resultado do Sonnet: link
A tarifa de $1 de entrada e $5 de saída é barata em comparação com o Sonnet 4.5, mas hoje existem tantos LLMs pequenos e rápidos que, para programação com agentes em larga escala, modelos ainda mais baratos são importantes
Como o Sonnet continua sendo muito usado mesmo sendo caro, o Haiku também deve ganhar bastante popularidade se a qualidade for boa
Quase todos os modelos open source baratos não têm caching tão eficaz assim
Isso pode ser realmente enorme
Velocidade é muito mais importante, e eu pagaria mais pelo Haiku 4.5 do que pelo Sonnet 4.5
Esperar pela resposta custa caro demais em tempo
Passar de 73% no SWE Bench já é suficiente para mim
Pelo que entendo, este é o primeiro produto small reasoner da Anthropic, e também anexaram informações do system card
PDF do system card
(discussão relacionada aqui)
No Extended NYT Connections (benchmark de quebra-cabeça de conexões), o Haiku 4.5 marcou 20.0, o Haiku 3.5 marcou 10.0, o Sonnet 3.7 marcou 19.2, o Sonnet 4.0 marcou 26.6 e o Sonnet 4.5 marcou 46.1
Como desenvolvedor freelancer, sinto que só o fato de a resposta estar 3x mais rápida já vale muito a pena
Estou animado porque parece que minha produtividade vai subir bastante se eu trocar para isso em vez do claude 4.5
Fico me perguntando para que servem esses modelos pequenos na prática. Velocidade? Transição para on-device? Redução de tarifa de API? Se a maioria já está usando assinatura do Claude, fico na dúvida se eles têm tanta utilidade assim
Na nossa empresa, tirando trabalho complexo em código interno, quase tudo já é resolvido com modelos pequenos
Ambientes expostos ao usuário e workflows como extração, transformação, tradução, mesclagem e avaliação são todos feitos por modelos mini/nano
Isso ajuda bastante a economizar janela de contexto da sessão principal e aumentar a taxa de processamento de tokens
Dá para iterar rapidamente antes de montar um plano e passar para um modelo maior
link do ranking do OpenRouter
Claro, o Gemini 2.5 Pro também está mais alto do que eu esperava)