Review de Simon Willison sobre o Claude 4.5 Opus

(simonwillison.net)

8 pontos por laeyoung 2025-11-26 | 2 comentários | Compartilhar no WhatsApp

Claude Opus 4.5, e por que avaliar novos LLMs está ficando cada vez mais difícil

O preço é muito satisfatório

US$ 5 por milhão de tokens de entrada, US$ 25 por milhão de tokens de saída
Muito mais barato que o Opus anterior, que custava US$ 15/US$ 75
Também é competitivo em comparação com a família GPT-5.1 (US$ 1,25/US$ 10) e o Gemini 3 Pro (US$ 2/US$ 12, ou US$ 4/US$ 18 para compras acima de 200 mil tokens)

Mudanças no Opus 4.5 com melhorias interessantes

O Opus 4.5 adiciona um novo parâmetro effort, definido por padrão como alto
Suporta Computer use aprimorado e, em especial, oferece uma ferramenta de zoom para pedir que ele examine áreas ampliadas da tela
Os blocos de raciocínio dos turnos auxiliares anteriores agora são preservados no contexto do modelo por padrão, ao contrário do comportamento anterior

A dificuldade da avaliação

Ficou mais difícil distinguir o desempenho dos LLMs de ponta
Em benchmarks como o SWE-bench Verified, os modelos mostram diferenças de apenas alguns pontos percentuais
Mas isso não explica que resultado essas diferenças produzem quando você tenta resolver problemas reais
Por enquanto, desenhar um pelicano andando de bicicleta continua sendo importante.

2 comentários

youknowone 2025-11-26

Tradução: https://rosettalens.com/s/ko/claude-opus

laeyoung 2025-11-26

Na Anthropic, gráfico de benchmarks do Opus 4.5

Se fosse desenhado normalmente, a altura ficaria quase igual, então o trecho de 0 a 70 no eixo Y do gráfico foi comprimido.