Review de Simon Willison sobre o Claude 4.5 Opus
(simonwillison.net)Claude Opus 4.5, e por que avaliar novos LLMs está ficando cada vez mais difícil
O preço é muito satisfatório
- US$ 5 por milhão de tokens de entrada, US$ 25 por milhão de tokens de saída
- Muito mais barato que o Opus anterior, que custava US$ 15/US$ 75
- Também é competitivo em comparação com a família GPT-5.1 (US$ 1,25/US$ 10) e o Gemini 3 Pro (US$ 2/US$ 12, ou US$ 4/US$ 18 para compras acima de 200 mil tokens)
Mudanças no Opus 4.5 com melhorias interessantes
- O Opus 4.5 adiciona um novo parâmetro
effort, definido por padrão como alto - Suporta
Computer useaprimorado e, em especial, oferece uma ferramenta de zoom para pedir que ele examine áreas ampliadas da tela - Os blocos de raciocínio dos turnos auxiliares anteriores agora são preservados no contexto do modelo por padrão, ao contrário do comportamento anterior
A dificuldade da avaliação
- Ficou mais difícil distinguir o desempenho dos LLMs de ponta
- Em benchmarks como o SWE-bench Verified, os modelos mostram diferenças de apenas alguns pontos percentuais
- Mas isso não explica que resultado essas diferenças produzem quando você tenta resolver problemas reais
- Por enquanto, desenhar um pelicano andando de bicicleta continua sendo importante.
2 comentários
Tradução: https://rosettalens.com/s/ko/claude-opus
Na Anthropic, gráfico de benchmarks do Opus 4.5