12 pontos por flyingsquirrel 17 일 전 | 11 comentários | Compartilhar no WhatsApp

A Anthropic lançou Claude Opus 4.8, uma versão atualizada do seu modelo topo de linha Claude Opus. Com base na versão anterior, 4.7, ele melhora o desempenho em benchmarks e reforça a capacidade de colaboração, mantendo o mesmo preço.

Principais melhorias e características

  • Melhoria de desempenho: apresenta desempenho superior ao modelo anterior e a modelos concorrentes, como o GPT-5.5, em tarefas de programação, habilidades de agente, raciocínio e conhecimento prático.
  • Reforço da honestidade (Honesty): foram melhorados os problemas em que a IA fazia afirmações sem fundamento ou chegava a conclusões precipitadas. O Opus 4.8 sinaliza por conta própria partes incertas, e a probabilidade de deixar passar falhas no código caiu cerca de 4 vezes em relação ao modelo anterior.
  • Capacidades de agente confiáveis: segundo os testes iniciais, ele ficou mais criterioso ao executar tarefas complexas de múltiplas etapas, mostrando melhor colaboração ao identificar os próprios erros e contestar planos quando eles não são válidos.
  • Eficiência de custo: a velocidade do 'Fast Mode' ficou 2,5 vezes maior, e o custo ficou 3 vezes mais barato em comparação com o modelo anterior.

Novos recursos lançados junto

  • Dynamic Workflows: recurso em preview de pesquisa do Claude Code que permite executar centenas de subagentes em paralelo para realizar tarefas complexas, como migrações de grandes bases de código.
  • Effort Control: permite que o usuário escolha o nível de esforço que o Claude deve dedicar à tarefa. Em níveis mais altos, ele pensa com mais profundidade para oferecer respostas de maior qualidade; em níveis mais baixos, responde mais rápido.
  • Atualização da Messages API: agora é possível incluir entradas de sistema dentro do array de mensagens, permitindo atualizar instruções no meio da tarefa sem quebrar o cache de prompt.

Próximos planos

A Anthropic está desenvolvendo um modelo que oferece desempenho de nível Opus a um custo mais baixo e, por meio do Project Glasswing, prepara uma nova classe de modelos com inteligência superior à do Opus (Claude Mythos). No momento, ele está em testes de segurança com algumas organizações e deve ser disponibilizado a todos os clientes dentro de algumas semanas.

Preços e disponibilidade

  • Modo normal: entrada $5 / 1M tokens, saída $25 / 1M tokens (igual ao Opus 4.7)
  • Fast Mode: entrada $10 / 1M tokens, saída $50 / 1M tokens
  • Nome do modelo: claude-opus-4-8

11 comentários

 
jimmy2056 16 일 전

Fica me fazendo perder tempo à toa, então acho que um GPT estável acaba sendo melhor.
Eu usava o Claude de $200, depois mudei para GPT de $100 + Claude de $100,
a partir do mês que vem vou usar só o Claude de $20. De qualquer forma é só para review, então nem preciso tanto mais, e se faltar eu também pago o AGY, então posso usar ele também rs

 
slowandsnow 16 일 전

Por que o Sonnet e o Haiku estão sendo deixados de lado? Será que estão pensando só em competir com o GPT?

 
jessyt 16 일 전

Dizem que a variante fast mode está rodando 2,5 vezes mais rápido do que antes, enquanto o custo ficou 3 vezes mais barato.

 
hhcrux 16 일 전

Eu deixei o Claude no plano Pro e estou usando o GPT, mas como tinha algo em andamento, pedi para ele fazer uma revisão; aí toda a cota de uso do Pro evaporou em apenas 10 minutos e ele parou.
Impressionante, Claude!

 
dhkd63 16 일 전

No meu caso, durante a manhã eu estava usando um recurso para organizar reuniões e transcrições, então testei isso no 4.8 mudando o effort para ultracode, e ficou bem melhor do que eu esperava. Pessoalmente, a sensação que tive é de um comportamento parecido com o do codex. A eficiência de tokens ainda fica abaixo do codex, mas a janela de contexto é bem generosa e, por causa do workflow, a tela de subagentes também mudou um pouco, e essa parte também me agradou.

 
dunward 16 일 전

O 4.7 era tão ruim na prática que chegava a ser difícil de usar; espero muito que o 4.8 tenha melhorado.

 
sixmen 16 일 전

Também dá a impressão de que lançaram isso às pressas porque muita gente está migrando para o ChatGPT/Codex..

 
sea715 16 일 전

O efeito que sai com /effort é divertido demais kkk

 
codufdl 16 일 전

Eu fui procurar o original da expressão "fruto ao alcance da mão" na tradução abaixo de um comentário do Hacker News, e era esta aqui:
low hanging juice to squeeze out of smaller models << no original,
então dá para interpretar como "há muito potencial fácil de extrair dos modelos menores".

 
iolothebard 16 일 전

Já chega, já comi demais, pô~

 
GN⁺ 17 일 전
Comentários do Hacker News
  • Acho que esta é a primeira vez que um modelo de ponta da Anthropic recebe uma terceira elevação de versão minor
    Aqui, os incrementos de 0.5 saíram fora de sequência e também trouxeram saltos grandes de desempenho, então eu os considero major. Por exemplo, Sonnet 3.5 e Opus 4.5
    Agora a linha Opus 4.5 já ganhou sucessores 4.6, 4.7 e 4.8, e a amplitude das melhorias em cada um, mesmo segundo o que afirmam, parece bem gradual
    Quando usei 4.6/4.7 diretamente, comparando com minha lembrança do 4.5, não consegui identificar com clareza que capacidades tinham melhorado; a sensação era vaga demais para julgar
    Pode ser que meu gosto já tenha saturado, ou que o modelo tenha ficado mais inteligente do que eu e eu não consiga mais perceber o progresso; por outro lado, também pode ser uma melhora incremental do tipo que eu perceberia imediatamente se rodasse meu fluxo atual do 4.7 no 4.5
    A situação também parece desconfortável para o laboratório. Se houver um produto mais forte, eu queria que lançassem para podermos usar, mas se essa tendência continuar, mesmo havendo melhora real ela pode ficar cada vez menos visível para o usuário final e parecer só uma troca frequente sem recompensa

    • Não me surpreenderia se a próxima geração de modelos de ponta fosse a última
      Ainda restam frutos mais fáceis de colher na faixa dos modelos pequenos, em várias ordens de grandeza
      Parece quase certo que, em 2 a 3 anos, modelos de 60~90B possam superar o nível atual máximo em tarefas de programação. O desenho não está fechado, e provavelmente não será fácil
      Em contraste, é bem mais incerto se treinar um modelo de 1.2T vai trazer melhora significativa o bastante
      No lado de raciocínio, olhando a divulgação recente do GRAM, pode haver espaço para melhorias de raciocínio em modelos pequenos em até 4 ordens de grandeza
      Google, OpenAI e Anthropic podem treinar em poucos dias um modelo baseado em GRAM de 30B, e esse modelo talvez faça raciocínio local melhor do que os melhores modelos atuais com mais de 1T parâmetros. Se aumentarem isso em poucos dias para um modelo MoE de cerca de 600B, ele pode até igualar os melhores modelos em conhecimento geral
      Modelos com mais de 1T parâmetros não podem ser treinados tão rápido assim. O quanto o GRAM realmente melhora é a grande variável, mas parece improvável que o efeito seja trivial ou irrelevante
      Os modelos grandes já conseguem falar sobre quase qualquer coisa. Sendo LLMs, eles não vão acertar tudo
      Não parece haver muito mais a extrair do Gemini só por ele informar corretamente a altura da Ke$ha ou quando Brittney Spears foi presa pela última vez
    • O 4.7 foi a primeira versão em que, para a maioria dos usos, eu precisei voltar para a 4.6, a versão anterior. Espero que o 4.8 corrija isso
    • Tenho curiosidade se alguém sentiu uma melhora significativa ou perceptível no fluxo de programação entre o 4.5 e o 4.7
      Pessoalmente, sinto que o ganho de produtividade desde o lançamento do 4.5 veio mais de melhorias no harness e da janela de contexto ampliada de 200k para 1M do que do modelo em si. Foi assim em cc, cursor cli, codex, opencode etc.
      A “inteligência” pura do modelo, ou sua capacidade de tomar boas decisões, parece estagnada desde o 4.5. O 4.6 pode ter melhorado um pouco, mas era difícil separar isso do efeito de aprendizado em contexto com a janela de 1M; e o 4.7 pareceu, para mim e meus colegas, até um retrocesso em sabedoria, tomando de forma consistente decisões piores e mais preguiçosas
    • Esses lançamentos incrementais mais frequentes provavelmente também servem para a Anthropic implantar novos recursos usados para controlar custos e regular o consumo de recursos
      Imagino que, por trás dos novos controles expostos ao usuário final, existam controles internos bem mais granulares que permitem meta-ajustes por tipo de usuário
      Estou falando de controle mais fino de esforço, “dynamic workflow” e controles de velocidade como “fast mode”. São apresentados como recursos para o usuário, mas também parecem alavancas de backend para equilibrar custo, margem, ARR, crescimento de usuários e retenção a fim de bater métricas-chave dos relatórios trimestrais após o IPO
    • Nos nossos testes, 4.5/4.6 ficaram mais ou menos no mesmo nível. Opus 4.7 é mais inteligente, mas é difícil usá-lo em produto por causa de vários problemas de personalidade
      Até agora, o Opus 4.8 também parece ir nessa direção. Está lento a ponto de ser impraticável, embora isso possa ser um problema de rollout no dia do lançamento. Os testes completos do Opus 4.8 ainda estão em andamento
      Os dados estão em https://gertlabs.com/rankings
  • Acho refrescante a postura de dizer que “os usuários vão sentir o Opus 4.8 como uma melhora suave, mas perceptível, em relação à versão anterior”
    Também vi que dá para desligar o adaptive thinking na interface web, o que é ótimo. Havia muitos casos em que o thinking não funcionava e a saída do modelo ficava péssima
    Ainda bem que agora finalmente dá para desligar. Se sempre foi possível, aí fica até meio constrangedor

    • Acho que esse interruptor provavelmente sempre existiu, mas desligá-lo não dá exatamente o comportamento desejado. Ele desativa completamente o thinking
    • É refrescante, mas desta vez talvez essa descrição seja até modesta demais
      Eu olho principalmente para pesquisa na web, e o Opus 4.7 regrediu em relação ao Opus 4.6 no BrowseComp, e no uso real também foi assim
      O Opus 4.8 melhorou muito em relação ao 4.7 e ao 4.6, e busca na web é um dos casos de uso centrais em um chatbot
    • Fico pensando se esses lançamentos pequenos são uma tentativa de acostumar os usuários a um ciclo de atualizações mais incremental
      Algo como: outros provedores de modelos fazem uma grande atualização a cada x meses, nós fazemos atualizações incrementais a cada x/2 meses
    • Quando troquei o modelo de 4.6 para 4.8 extra, acho que topei com um bug meio falso ao desligar o Adaptive, mas ao tentar de novo pareceu funcionar como pretendido
      O que é mais importante para mim é como o CC reage às flags “exclusivas” do 4.6 relacionadas a thinking, e por enquanto não parece estar sobrescrevendo minhas configurações
    • Eu esperava que a interface web melhorasse mais. Em termos de valores, gosto mais da Anthropic do que da OpenAI e quero usar o produto deles, mas o modo thinking do ChatGPT era muito melhor que o claude.ai
      Com esta mudança, eu esperava que chegasse a um nível parecido, mas usando na prática ainda não é isso
      Se fosse o ChatGPT, ele faria uma busca simples, verificaria o fato e responderia; já o Claude, em perguntas factuais simples, que o novo modelo e o thinking high tratam com “Boa pergunta!”, acaba inventando uma resposta completa. Ao contrário do GPT, ele não percebe sozinho que precisa pesquisar, e é preciso mandar explicitamente que pesquise até para fatos básicos
  • A parte sobre o Claude Mythos Preview, dizendo que “planejam lançar um novo tipo de modelo com inteligência superior à do Opus”, parece mais interessante do que o lançamento do 4.8
    Como parte do Project Glasswing, um pequeno número de organizações já o está usando em tarefas de cibersegurança, e dizem que um modelo desse nível precisa de proteções de segurança cibernética mais fortes antes de ser liberado ao público

    • Em vez de “mais interessante”, há uma suspeita bem difundida de que isso é o tipo de marketing característico do Dario: más notícias autogeradas no estilo “o Mythos é perigoso demais para permitir acesso ao público”
      O fato de o IPO estar se aproximando também certamente se refletirá nas declarações públicas. Sendo justo, isso também faz parte da responsabilidade dele
      O motivo do atraso do modelo pode não ser “estamos tornando-o seguro”, mas sim “não sabemos como hospedar isso em escala, ou de forma economicamente viável”
      O GPT 5.5 já parecia tão bom quanto o Mythos em encontrar vulnerabilidades
      Por fim, não especialistas subestimam muito a importância do harness no desempenho dos modelos. O OpenHands existe há muito mais tempo do que o Claude Code, mas o Claude Code mudou o jogo por causa de um método auxiliar inteligente. O Mythos provavelmente também é mais do que apenas um modelo
    • Com isso, parece que vão tirar do Claude Pro o acesso ao maior modelo. Para usar um modelo maior que o Opus, provavelmente será preciso no mínimo uma assinatura Claude Max
    • Mais interessante do que isso é a parte que diz que estão desenvolvendo e lançando “modelos de menor custo que oferecem muitos dos mesmos recursos do Opus”
      Em comparação com os modelos concorrentes chineses atuais, o Sonnet e o Haiku parecem estar bem atrás em custo-benefício
    • Nas notas de lançamento do Opus 4.7, disseram que reduziram deliberadamente a capacidade de cibersegurança https://www.anthropic.com/news/claude-opus-4-7
      Então fico pensando se estão fazendo a mesma coisa com o Mythos, e se o Mythos que vamos receber será uma versão enfraquecida nesse aspecto
      Mais precisamente, talvez o Mythos seja dividido em duas versões, e a versão assustadora continue exigindo muita burocracia
    • Isso parece sugerir que, a menos que você seja um bilionário ou uma empresa de dezenas de bilhões de dólares, talvez só receba algo como um comando slash limitado e enfraquecido do Claude Code, tipo /mythos-security-audit
      Espero que pessoas comuns não acabem excluídas do acesso desse jeito
  • Testei a geração de um pelicano andando de bicicleta tanto no thinking level low quanto no high
    https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
    O resultado do high é claramente melhor. Ao contrário do low, o formato do quadro da bicicleta está correto
    O resultado do Opus 4.7 para comparação está aqui: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087

  • Meu benchmark de coding favorito para modelos de ponta é pedir que façam um jogo de estratégia em tempo real simples em um único arquivo (js/html/css)
    Claude Code + Opus 4.8 no modo ultracode conseguiu fazer isso direito, e foi o melhor resultado até agora
    https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
    O prompt foi: “crie um jogo RTS simples, mas funcional, como os antigos WarCraft, StarCraft e Command & Conquer. O jogador deve poder construir prédios, criar unidades, coletar recursos e revelar o mapa inteiro. Não precisa de IA nem multiplayer. Use gráficos simples, mas bonitos. Sem som. Implemente tudo em HTML/CSS/JS e faça em um único arquivo. É permitido usar bibliotecas ou frameworks js/css de terceiros via CDN”

    • Fico curioso se existe algum ranking desse tipo de teste. Se déssemos notas de 0 a 100 para Opus 4.8 e GPT 5.5, quanto cada um tiraria?
    • O código parece quase código minificado. Os nomes das variáveis são curtos e o formato parece tentar minimizar espaços em branco; ele escreveu assim comprimido por conta própria?
    • Foi útil compartilhar até o prompt. Eu também venho testando o Claude pedindo para criar algo parecido
      Também acho interessante como o estilo visual é bem parecido com o que ele fez para mim
    • Gostei desse benchmark. Se colocarem os resultados no GitHub Pages, as pessoas poderiam jogar diretamente
    • Fico curioso sobre onde guardam essa coleção de apps de benchmark. Principalmente queria ver a diferença relativa de custo entre os modelos nesse tipo de caso de uso
  • Fico pensando quem analisa esses lançamentos tentando cherry-pickar métricas arbitrárias que outras empresas provavelmente escolheram só para fazer seus modelos parecerem melhores
    Parece que existem uns 8 milhões de benchmarks. A cada lançamento, cada modelo escolhe aleatoriamente 5 a 10 e mostra como venceu em todos menos um, como se tentasse fingir que não escolheu a dedo benchmarks com alta chance de sair por cima

    • https://arena.ai/leaderboard me parece um fornecedor de ranking bem decente
      Não conheço a metodologia exata, mas, quando faço programação do dia a dia com modelos Claude/GPT, os resultados que eles reportam batem com a minha percepção qualitativa
    • Desta vez é interessante que colocaram só 6 métricas. O Opus 4.7 tinha 12, e o 4.6 tinha 13
      Entre as métricas reportadas no 4.7 que sumiram no 4.8 estão BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU e SWE-bench Verified. As últimas 4 quase sempre eram citadas em lançamentos anteriores do Opus
    • Todo benchmark precisa ser visto com algum filtro. Eu quase não uso
      O que exatamente quer dizer “5% mais inteligente”? Minha experiência de uso pode ser diferente. É melhor simplesmente testar por conta própria
      Não acho que a Anthropic mire internamente melhorar benchmarks específicos. Isso parece mais uma forma de visualizar progresso; por dentro, devem existir métricas bem mais complexas
    • Nesse contexto, fico curioso se existe algum agregador de benchmarks que reúna todos em uma grande grade
    • Pelo menos, ao contrário da OpenAI, eles não fingem que não há concorrentes e mostram modelos rivais em cada benchmark
  • Pelos resultados iniciais da ArtificialAnalysis.ai, o GPT 5.5 ainda parece ter melhor custo-benefício
    A OpenAI usa cerca de 50% menos tokens de saída para resolver as tarefas
    https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b

    • Eu tento usar o Codex a cada versão nova, mas ele não encaixa para mim. Então isso não é verdade para todo mundo
      Acho que eu só mudaria se o Claude ficasse muito mais caro
  • Fiquei contente de ver uma avaliação sobre proficiência criativa na página 102 do system card
    No nosso trabalho, pedimos a vários AIs de ponta que projetassem a API necessária, e comparamos Opus 4.7, GPT-5.5 e outros. O Opus 4.7 apresentou o design de API mais criativo e inteligente, o que foi uma surpresa positiva, especialmente porque o GPT-5.5 está à frente em vários benchmarks de coding
    Percebi que não existe um benchmark comum para medir “criatividade” e “originalidade”, e que esse tipo de benchmark pode, em certos aspectos, até entrar em conflito com o IFBench comum
    Ainda assim, é uma capacidade muito importante em system design. É bom ver a Anthropic se importar com isso, e seria ótimo se surgisse também um benchmark público para comparar com outros modelos
    https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

    • Pela minha impressão também, o 4.6 parece um coder melhor que o 4.7. O 4.7 pensa estrategicamente muito melhor e mantém um senso de arquitetura geral melhor do que o 5.5
      O 5.5 é muito melhor em coding do que os dois, mas é mais caro. Então deixo o 4.7 fazer planejamento/arquitetura, o 4.6 fazer coding, e o 5.5 criticar e corrigir
    • Tenho uma sensação parecida. Para tarefas como planejamento, estratégia e arquitetura, o Opus 4.7 é muito melhor que o GPT-5.5
      O GPT parece um robô que recebe instruções e executa exatamente aquilo, enquanto o Opus às vezes realmente tem boas ideias e até rebate ideias ruins, quase como um humano
      Então, por enquanto, separo assim: Opus para planejamento/arquitetura/estratégia, GPT para coding puro
      Em coding agentic, também ajuda o fato de o GPT poder receber uma folga maior de tokens
  • Infelizmente, parece que esta release de backend ou a nova versão do CC deixou o Claude Code completamente quebrado
    O erro “não é possível modificar os thinking blocks” está transformando sessões longas em tijolo: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified

    • Esse problema também aconteceu no branch stable da 4.7
      Consegui resolver fazendo o Claude criar um script de recuperação para desfazer a sessão “brickada”, mas isso pode variar dependendo do ambiente
      https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
    • Parece que as atualizações do CC não são testadas antes do lançamento. As equipes internas que usam o produto ou o feedback público acabam fazendo o papel de teste
    • Não sei se vai ajudar, mas em alguns casos mais leves eu consegui recuperar com /rewind e continuar
    • Comigo também. Isso acontecer bem na hora em que fazem rollout de um modelo novo não pega bem
    • Faz parte do charme de trabalhar com o Claude. Toda vez que lançam algo novo, tudo o que é seu quebra
  • Nos meus testes, o Opus 4.8 está um pouco pior e custa quase 2x mais que o Opus 4.7
    Fiquei surpreso por ele ter falhado num teste de extração de dados. Em 2 de 3 vezes ele acerta, mas uma vez retorna aleatoriamente algum valor como null
    Até dá para entender ele falhar mais em tarefas de trivia/conhecimento especializado de domínio. Parece que os modelos estão sendo treinados cada vez mais para casos de uso agentic do que para inteligência geral
    https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/

    • Por algum motivo, tudo está em 2x. 2x o custo, 2x o tempo médio de resposta, 2x os tokens de raciocínio e de saída
      Estou conferindo o test harness de novo, mas como esse foi o primeiro modelo a se comportar assim, acho pouco provável que o problema esteja do meu lado
      Edit: o harness parece estar certo, e em tarefas puramente de código o desempenho é o mesmo: https://i.snipboard.io/5xbpzY.jpg
    • O post do blog não diz que o preço é o mesmo da 4.7?
      “Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
      Queria entender de onde está aparecendo esse custo 2x
    • Lançamento de modelo novo virou um jeito novo de aumentar o preço rsrs