8 pontos por laeyoung 2025-11-26 | 2 comentários | Compartilhar no WhatsApp

Claude Opus 4.5, e por que avaliar novos LLMs está ficando cada vez mais difícil

O preço é muito satisfatório

  • US$ 5 por milhão de tokens de entrada, US$ 25 por milhão de tokens de saída
  • Muito mais barato que o Opus anterior, que custava US$ 15/US$ 75
  • Também é competitivo em comparação com a família GPT-5.1 (US$ 1,25/US$ 10) e o Gemini 3 Pro (US$ 2/US$ 12, ou US$ 4/US$ 18 para compras acima de 200 mil tokens)

Mudanças no Opus 4.5 com melhorias interessantes

  • O Opus 4.5 adiciona um novo parâmetro effort, definido por padrão como alto
  • Suporta Computer use aprimorado e, em especial, oferece uma ferramenta de zoom para pedir que ele examine áreas ampliadas da tela
  • Os blocos de raciocínio dos turnos auxiliares anteriores agora são preservados no contexto do modelo por padrão, ao contrário do comportamento anterior

A dificuldade da avaliação

  • Ficou mais difícil distinguir o desempenho dos LLMs de ponta
  • Em benchmarks como o SWE-bench Verified, os modelos mostram diferenças de apenas alguns pontos percentuais
  • Mas isso não explica que resultado essas diferenças produzem quando você tenta resolver problemas reais
  • Por enquanto, desenhar um pelicano andando de bicicleta continua sendo importante.

2 comentários

 
laeyoung 2025-11-26

Na Anthropic, gráfico de benchmarks do Opus 4.5

  • Se fosse desenhado normalmente, a altura ficaria quase igual, então o trecho de 0 a 70 no eixo Y do gráfico foi comprimido.