Anthropic lança Claude Opus 4.8
(anthropic.com)A Anthropic lançou Claude Opus 4.8, uma versão atualizada do seu modelo topo de linha Claude Opus. Com base na versão anterior, 4.7, ele melhora o desempenho em benchmarks e reforça a capacidade de colaboração, mantendo o mesmo preço.
Principais melhorias e características
- Melhoria de desempenho: apresenta desempenho superior ao modelo anterior e a modelos concorrentes, como o GPT-5.5, em tarefas de programação, habilidades de agente, raciocínio e conhecimento prático.
- Reforço da honestidade (Honesty): foram melhorados os problemas em que a IA fazia afirmações sem fundamento ou chegava a conclusões precipitadas. O Opus 4.8 sinaliza por conta própria partes incertas, e a probabilidade de deixar passar falhas no código caiu cerca de 4 vezes em relação ao modelo anterior.
- Capacidades de agente confiáveis: segundo os testes iniciais, ele ficou mais criterioso ao executar tarefas complexas de múltiplas etapas, mostrando melhor colaboração ao identificar os próprios erros e contestar planos quando eles não são válidos.
- Eficiência de custo: a velocidade do 'Fast Mode' ficou 2,5 vezes maior, e o custo ficou 3 vezes mais barato em comparação com o modelo anterior.
Novos recursos lançados junto
- Dynamic Workflows: recurso em preview de pesquisa do Claude Code que permite executar centenas de subagentes em paralelo para realizar tarefas complexas, como migrações de grandes bases de código.
- Effort Control: permite que o usuário escolha o nível de esforço que o Claude deve dedicar à tarefa. Em níveis mais altos, ele pensa com mais profundidade para oferecer respostas de maior qualidade; em níveis mais baixos, responde mais rápido.
- Atualização da Messages API: agora é possível incluir entradas de sistema dentro do array de mensagens, permitindo atualizar instruções no meio da tarefa sem quebrar o cache de prompt.
Próximos planos
A Anthropic está desenvolvendo um modelo que oferece desempenho de nível Opus a um custo mais baixo e, por meio do Project Glasswing, prepara uma nova classe de modelos com inteligência superior à do Opus (Claude Mythos). No momento, ele está em testes de segurança com algumas organizações e deve ser disponibilizado a todos os clientes dentro de algumas semanas.
Preços e disponibilidade
- Modo normal: entrada $5 / 1M tokens, saída $25 / 1M tokens (igual ao Opus 4.7)
- Fast Mode: entrada $10 / 1M tokens, saída $50 / 1M tokens
- Nome do modelo:
claude-opus-4-8
11 comentários
Fica me fazendo perder tempo à toa, então acho que um GPT estável acaba sendo melhor.
Eu usava o Claude de $200, depois mudei para GPT de $100 + Claude de $100,
a partir do mês que vem vou usar só o Claude de $20. De qualquer forma é só para review, então nem preciso tanto mais, e se faltar eu também pago o AGY, então posso usar ele também rs
Por que o Sonnet e o Haiku estão sendo deixados de lado? Será que estão pensando só em competir com o GPT?
Dizem que a variante
fast modeestá rodando 2,5 vezes mais rápido do que antes, enquanto o custo ficou 3 vezes mais barato.Eu deixei o Claude no plano Pro e estou usando o GPT, mas como tinha algo em andamento, pedi para ele fazer uma revisão; aí toda a cota de uso do Pro evaporou em apenas 10 minutos e ele parou.
Impressionante, Claude!
No meu caso, durante a manhã eu estava usando um recurso para organizar reuniões e transcrições, então testei isso no 4.8 mudando o
effortparaultracode, e ficou bem melhor do que eu esperava. Pessoalmente, a sensação que tive é de um comportamento parecido com o do codex. A eficiência de tokens ainda fica abaixo do codex, mas a janela de contexto é bem generosa e, por causa do workflow, a tela de subagentes também mudou um pouco, e essa parte também me agradou.O 4.7 era tão ruim na prática que chegava a ser difícil de usar; espero muito que o 4.8 tenha melhorado.
Também dá a impressão de que lançaram isso às pressas porque muita gente está migrando para o ChatGPT/Codex..
O efeito que sai com
/efforté divertido demais kkkEu fui procurar o original da expressão "fruto ao alcance da mão" na tradução abaixo de um comentário do Hacker News, e era esta aqui:
low hanging juice to squeeze out of smaller models << no original,
então dá para interpretar como "há muito potencial fácil de extrair dos modelos menores".
Já chega, já comi demais, pô~
Comentários do Hacker News
Acho que esta é a primeira vez que um modelo de ponta da Anthropic recebe uma terceira elevação de versão minor
Aqui, os incrementos de 0.5 saíram fora de sequência e também trouxeram saltos grandes de desempenho, então eu os considero major. Por exemplo, Sonnet 3.5 e Opus 4.5
Agora a linha Opus 4.5 já ganhou sucessores 4.6, 4.7 e 4.8, e a amplitude das melhorias em cada um, mesmo segundo o que afirmam, parece bem gradual
Quando usei 4.6/4.7 diretamente, comparando com minha lembrança do 4.5, não consegui identificar com clareza que capacidades tinham melhorado; a sensação era vaga demais para julgar
Pode ser que meu gosto já tenha saturado, ou que o modelo tenha ficado mais inteligente do que eu e eu não consiga mais perceber o progresso; por outro lado, também pode ser uma melhora incremental do tipo que eu perceberia imediatamente se rodasse meu fluxo atual do 4.7 no 4.5
A situação também parece desconfortável para o laboratório. Se houver um produto mais forte, eu queria que lançassem para podermos usar, mas se essa tendência continuar, mesmo havendo melhora real ela pode ficar cada vez menos visível para o usuário final e parecer só uma troca frequente sem recompensa
Ainda restam frutos mais fáceis de colher na faixa dos modelos pequenos, em várias ordens de grandeza
Parece quase certo que, em 2 a 3 anos, modelos de 60~90B possam superar o nível atual máximo em tarefas de programação. O desenho não está fechado, e provavelmente não será fácil
Em contraste, é bem mais incerto se treinar um modelo de 1.2T vai trazer melhora significativa o bastante
No lado de raciocínio, olhando a divulgação recente do GRAM, pode haver espaço para melhorias de raciocínio em modelos pequenos em até 4 ordens de grandeza
Google, OpenAI e Anthropic podem treinar em poucos dias um modelo baseado em GRAM de 30B, e esse modelo talvez faça raciocínio local melhor do que os melhores modelos atuais com mais de 1T parâmetros. Se aumentarem isso em poucos dias para um modelo MoE de cerca de 600B, ele pode até igualar os melhores modelos em conhecimento geral
Modelos com mais de 1T parâmetros não podem ser treinados tão rápido assim. O quanto o GRAM realmente melhora é a grande variável, mas parece improvável que o efeito seja trivial ou irrelevante
Os modelos grandes já conseguem falar sobre quase qualquer coisa. Sendo LLMs, eles não vão acertar tudo
Não parece haver muito mais a extrair do Gemini só por ele informar corretamente a altura da Ke$ha ou quando Brittney Spears foi presa pela última vez
Pessoalmente, sinto que o ganho de produtividade desde o lançamento do 4.5 veio mais de melhorias no harness e da janela de contexto ampliada de 200k para 1M do que do modelo em si. Foi assim em cc, cursor cli, codex, opencode etc.
A “inteligência” pura do modelo, ou sua capacidade de tomar boas decisões, parece estagnada desde o 4.5. O 4.6 pode ter melhorado um pouco, mas era difícil separar isso do efeito de aprendizado em contexto com a janela de 1M; e o 4.7 pareceu, para mim e meus colegas, até um retrocesso em sabedoria, tomando de forma consistente decisões piores e mais preguiçosas
Imagino que, por trás dos novos controles expostos ao usuário final, existam controles internos bem mais granulares que permitem meta-ajustes por tipo de usuário
Estou falando de controle mais fino de esforço, “dynamic workflow” e controles de velocidade como “fast mode”. São apresentados como recursos para o usuário, mas também parecem alavancas de backend para equilibrar custo, margem, ARR, crescimento de usuários e retenção a fim de bater métricas-chave dos relatórios trimestrais após o IPO
Até agora, o Opus 4.8 também parece ir nessa direção. Está lento a ponto de ser impraticável, embora isso possa ser um problema de rollout no dia do lançamento. Os testes completos do Opus 4.8 ainda estão em andamento
Os dados estão em https://gertlabs.com/rankings
Acho refrescante a postura de dizer que “os usuários vão sentir o Opus 4.8 como uma melhora suave, mas perceptível, em relação à versão anterior”
Também vi que dá para desligar o adaptive thinking na interface web, o que é ótimo. Havia muitos casos em que o thinking não funcionava e a saída do modelo ficava péssima
Ainda bem que agora finalmente dá para desligar. Se sempre foi possível, aí fica até meio constrangedor
Eu olho principalmente para pesquisa na web, e o Opus 4.7 regrediu em relação ao Opus 4.6 no BrowseComp, e no uso real também foi assim
O Opus 4.8 melhorou muito em relação ao 4.7 e ao 4.6, e busca na web é um dos casos de uso centrais em um chatbot
Algo como: outros provedores de modelos fazem uma grande atualização a cada x meses, nós fazemos atualizações incrementais a cada x/2 meses
O que é mais importante para mim é como o CC reage às flags “exclusivas” do 4.6 relacionadas a thinking, e por enquanto não parece estar sobrescrevendo minhas configurações
Com esta mudança, eu esperava que chegasse a um nível parecido, mas usando na prática ainda não é isso
Se fosse o ChatGPT, ele faria uma busca simples, verificaria o fato e responderia; já o Claude, em perguntas factuais simples, que o novo modelo e o thinking high tratam com “Boa pergunta!”, acaba inventando uma resposta completa. Ao contrário do GPT, ele não percebe sozinho que precisa pesquisar, e é preciso mandar explicitamente que pesquise até para fatos básicos
A parte sobre o Claude Mythos Preview, dizendo que “planejam lançar um novo tipo de modelo com inteligência superior à do Opus”, parece mais interessante do que o lançamento do 4.8
Como parte do Project Glasswing, um pequeno número de organizações já o está usando em tarefas de cibersegurança, e dizem que um modelo desse nível precisa de proteções de segurança cibernética mais fortes antes de ser liberado ao público
O fato de o IPO estar se aproximando também certamente se refletirá nas declarações públicas. Sendo justo, isso também faz parte da responsabilidade dele
O motivo do atraso do modelo pode não ser “estamos tornando-o seguro”, mas sim “não sabemos como hospedar isso em escala, ou de forma economicamente viável”
O GPT 5.5 já parecia tão bom quanto o Mythos em encontrar vulnerabilidades
Por fim, não especialistas subestimam muito a importância do harness no desempenho dos modelos. O OpenHands existe há muito mais tempo do que o Claude Code, mas o Claude Code mudou o jogo por causa de um método auxiliar inteligente. O Mythos provavelmente também é mais do que apenas um modelo
Em comparação com os modelos concorrentes chineses atuais, o Sonnet e o Haiku parecem estar bem atrás em custo-benefício
Então fico pensando se estão fazendo a mesma coisa com o Mythos, e se o Mythos que vamos receber será uma versão enfraquecida nesse aspecto
Mais precisamente, talvez o Mythos seja dividido em duas versões, e a versão assustadora continue exigindo muita burocracia
/mythos-security-auditEspero que pessoas comuns não acabem excluídas do acesso desse jeito
Testei a geração de um pelicano andando de bicicleta tanto no thinking level low quanto no high
https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
O resultado do high é claramente melhor. Ao contrário do low, o formato do quadro da bicicleta está correto
O resultado do Opus 4.7 para comparação está aqui: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
O guidão não está girando a roda dianteira, e sim o quadro. O guidão deveria estar montado na mesma linha da roda dianteira
Espero que o 4.9 leia meu comentário
https://www.gianlucagimini.it/portfolio-item/velocipedia/
Humanos também podem ser bem ruins em desenhar bicicletas
https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
Meu benchmark de coding favorito para modelos de ponta é pedir que façam um jogo de estratégia em tempo real simples em um único arquivo (js/html/css)
Claude Code + Opus 4.8 no modo ultracode conseguiu fazer isso direito, e foi o melhor resultado até agora
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
O prompt foi: “crie um jogo RTS simples, mas funcional, como os antigos WarCraft, StarCraft e Command & Conquer. O jogador deve poder construir prédios, criar unidades, coletar recursos e revelar o mapa inteiro. Não precisa de IA nem multiplayer. Use gráficos simples, mas bonitos. Sem som. Implemente tudo em HTML/CSS/JS e faça em um único arquivo. É permitido usar bibliotecas ou frameworks js/css de terceiros via CDN”
Também acho interessante como o estilo visual é bem parecido com o que ele fez para mim
Fico pensando quem analisa esses lançamentos tentando cherry-pickar métricas arbitrárias que outras empresas provavelmente escolheram só para fazer seus modelos parecerem melhores
Parece que existem uns 8 milhões de benchmarks. A cada lançamento, cada modelo escolhe aleatoriamente 5 a 10 e mostra como venceu em todos menos um, como se tentasse fingir que não escolheu a dedo benchmarks com alta chance de sair por cima
Não conheço a metodologia exata, mas, quando faço programação do dia a dia com modelos Claude/GPT, os resultados que eles reportam batem com a minha percepção qualitativa
Entre as métricas reportadas no 4.7 que sumiram no 4.8 estão BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU e SWE-bench Verified. As últimas 4 quase sempre eram citadas em lançamentos anteriores do Opus
O que exatamente quer dizer “5% mais inteligente”? Minha experiência de uso pode ser diferente. É melhor simplesmente testar por conta própria
Não acho que a Anthropic mire internamente melhorar benchmarks específicos. Isso parece mais uma forma de visualizar progresso; por dentro, devem existir métricas bem mais complexas
Pelos resultados iniciais da ArtificialAnalysis.ai, o GPT 5.5 ainda parece ter melhor custo-benefício
A OpenAI usa cerca de 50% menos tokens de saída para resolver as tarefas
https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b
Acho que eu só mudaria se o Claude ficasse muito mais caro
Fiquei contente de ver uma avaliação sobre proficiência criativa na página 102 do system card
No nosso trabalho, pedimos a vários AIs de ponta que projetassem a API necessária, e comparamos Opus 4.7, GPT-5.5 e outros. O Opus 4.7 apresentou o design de API mais criativo e inteligente, o que foi uma surpresa positiva, especialmente porque o GPT-5.5 está à frente em vários benchmarks de coding
Percebi que não existe um benchmark comum para medir “criatividade” e “originalidade”, e que esse tipo de benchmark pode, em certos aspectos, até entrar em conflito com o IFBench comum
Ainda assim, é uma capacidade muito importante em system design. É bom ver a Anthropic se importar com isso, e seria ótimo se surgisse também um benchmark público para comparar com outros modelos
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
O 5.5 é muito melhor em coding do que os dois, mas é mais caro. Então deixo o 4.7 fazer planejamento/arquitetura, o 4.6 fazer coding, e o 5.5 criticar e corrigir
O GPT parece um robô que recebe instruções e executa exatamente aquilo, enquanto o Opus às vezes realmente tem boas ideias e até rebate ideias ruins, quase como um humano
Então, por enquanto, separo assim: Opus para planejamento/arquitetura/estratégia, GPT para coding puro
Em coding agentic, também ajuda o fato de o GPT poder receber uma folga maior de tokens
Infelizmente, parece que esta release de backend ou a nova versão do CC deixou o Claude Code completamente quebrado
O erro “não é possível modificar os thinking blocks” está transformando sessões longas em tijolo: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
stableda 4.7Consegui resolver fazendo o Claude criar um script de recuperação para desfazer a sessão “brickada”, mas isso pode variar dependendo do ambiente
https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
/rewinde continuarNos meus testes, o Opus 4.8 está um pouco pior e custa quase 2x mais que o Opus 4.7
Fiquei surpreso por ele ter falhado num teste de extração de dados. Em 2 de 3 vezes ele acerta, mas uma vez retorna aleatoriamente algum valor como null
Até dá para entender ele falhar mais em tarefas de trivia/conhecimento especializado de domínio. Parece que os modelos estão sendo treinados cada vez mais para casos de uso agentic do que para inteligência geral
https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/
Estou conferindo o test harness de novo, mas como esse foi o primeiro modelo a se comportar assim, acho pouco provável que o problema esteja do meu lado
Edit: o harness parece estar certo, e em tarefas puramente de código o desempenho é o mesmo: https://i.snipboard.io/5xbpzY.jpg
“Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
Queria entender de onde está aparecendo esse custo 2x