20 pontos por GN⁺ 2026-02-06 | 9 comentários | Compartilhar no WhatsApp
  • O mais recente modelo de IA da Anthropic, com capacidade de programação aprimorada e persistência em tarefas de longa duração, além de suporte beta para janela de contexto de 1M tokens
  • Registrou pontuações em nível de liderança do setor nos principais benchmarks, com vantagem de cerca de 144 pontos Elo sobre o GPT-5.2
  • O desempenho foi reforçado em tarefas práticas como revisão de código e depuração, processamento de grandes codebases e análise financeira e redação de documentos
  • Foram adicionados recursos de controle para desenvolvedores, como Adaptive thinking, context compaction e ajuste de effort, facilitando a operação de agentes de longa execução
  • Nas avaliações de segurança, também apresentou baixas taxas de erro, abuso e recusa excessiva, sendo avaliado como um modelo que alcança alto desempenho e segurança ao mesmo tempo

Principais melhorias do Claude Opus 4.6

  • O Opus 4.6 é um modelo com melhorias em capacidade de planejamento, persistência de agentes e controle de qualidade de código em relação à versão anterior
    • Funciona com mais estabilidade em grandes codebases e teve reforço na capacidade de detectar e corrigir os próprios erros
    • A janela de contexto de 1M tokens (beta) permite lidar com tarefas longas e complexas
  • A utilidade em tarefas do dia a dia também foi ampliada, permitindo executar diversos trabalhos como análise financeira, pesquisa, criação de documentos, planilhas e apresentações
  • No ambiente Cowork, é capaz de executar multitarefas de forma autônoma, processando trabalhos complexos no lugar do usuário

Benchmarks e avaliação de desempenho

  • Obteve a maior pontuação no Terminal-Bench 2.0 e liderou entre todos os modelos de fronteira no Humanity’s Last Exam
  • Na avaliação GDPval-AA, apresentou desempenho cerca de 144 pontos Elo acima do GPT-5.2 e 190 pontos acima do Opus 4.5
  • Também registrou o melhor desempenho no teste BrowseComp, com capacidade reforçada de busca de informações online
  • No MRCR v2 (1M variant), alcançou 76%, um grande salto em relação aos 18,5% do Sonnet 4.5
  • A retenção de contexto longo e a capacidade de rastrear informações foram melhoradas, reduzindo o fenômeno de context rot

Experiência inicial de uso e feedback de parceiros

  • Nos testes internos de engenharia, houve melhora em resolução de problemas complexos e capacidade de julgamento
    • Em problemas difíceis, o modelo repete ciclos de raciocínio mais profundos para chegar a resultados melhores
    • Em tarefas simples, pode haver atraso por excesso de reflexão, mas isso pode ser ajustado com o parâmetro /effort
  • Os parceiros iniciais avaliaram o Opus 4.6 como excelente em capacidade de execução autônoma, tratamento de solicitações complexas e suporte à colaboração em equipe
    • Desempenho preciso em exploração de grandes codebases, execução paralela de subtarefas e identificação de bloqueios
    • Alta precisão na análise de conteúdo jurídico, financeiro e técnico (ex.: BigLaw Bench 90,2%)
    • Em testes reais, superou o Opus 4.5 em 38 de 40 investigações de cibersegurança
    • Houve relato de um caso em que uma migração de código com milhões de linhas foi concluída em metade do tempo

Reforço de segurança e proteção

  • Em auditoria automatizada de comportamento, apresentou baixa proporção de comportamentos desalinhados, como engano, bajulação e cooperação em uso indevido
  • É o modelo Claude com a menor taxa de recusa excessiva (over-refusal)
  • Foram realizadas novas avaliações de segurança sobre bem-estar do usuário, recusa a solicitações de risco e detecção de comportamentos nocivos encobertos
  • Por meio de pesquisa em interpretabilidade, foram analisadas as causas do funcionamento interno do modelo e detectados problemas potenciais
  • Com o reforço das capacidades de cibersegurança, foram introduzidas seis novas sondas de segurança para fortalecer a detecção de abuso
  • Para uso defensivo, oferece suporte à detecção e correção de vulnerabilidades em open source, com plano futuro de bloquear abusos em tempo real

Atualizações de produto e API

  • Na Claude Developer Platform, foram adicionados os seguintes recursos
    • Adaptive thinking: o modelo decide automaticamente, conforme a situação, se deve realizar raciocínio aprofundado
    • Nível de effort: quatro níveis disponíveis — low, medium, high (padrão) e max
    • Context compaction (beta): resume e substitui contexto antigo quando a conversa fica longa
    • Suporte a contexto de 1M tokens (beta) e 128k tokens de saída
    • Opção de US-only inference (tarifa 1,1x)
  • O Claude Code recebeu o recurso agent teams, permitindo colaboração paralela entre vários agentes
  • O Claude in Excel teve melhorias na estruturação de dados não estruturados e no tratamento de alterações em múltiplas etapas
  • O Claude in PowerPoint (prévia de pesquisa) reconhece templates de slides, fontes e layouts para manter consistência de marca

Acesso e preços

  • O Opus 4.6 está disponível imediatamente em claude.ai, API e nas principais plataformas de nuvem
  • O nome do modelo na API é claude-opus-4-6, e o preço permanece o mesmo: $5/$25 per million tokens
  • Para prompts acima de 200k tokens, aplica-se tarifa premium ($10/$37.50 per million tokens)

Conclusão

  • O Claude Opus 4.6 representa um grande salto em processamento de contexto de longa duração, trabalho autônomo de agentes e capacidade avançada de raciocínio
  • Como modelo com melhorias simultâneas em desempenho, segurança e controle para desenvolvedores, estabelece um novo padrão para ferramentas de IA voltadas ao trabalho real

9 comentários

 
heim2 2026-02-06

Uso o Max e, por algum motivo, quanto mais tokens eu gasto, mais satisfeito fico... se não uso, parece desperdício...

 
duse0001 2026-02-06

Parece que a redução de preço que estava circulando na internet não foi aplicada mesmo ;_;

 
wegaia 2026-02-06

Parece que no Reddit estão pipocando posts dizendo que os assinantes estão esgotando o limite na velocidade da luz.
Como também tenho coisas para tocar, acabei continuando a usar o 4.5 mesmo

 
duse0001 2026-02-06

Eu esperava que, se o preço da API caísse, o limite semanal aumentaria naturalmente, então é uma pena. snif O limite semanal do plano de 200 dólares não é tão folgado assim..

 
princox 2026-02-06

Aff, está caro demais.. Anthropic, distribui uns tokens aí..!!

 
hmmhmmhm 2026-02-06

Uau, finalmente~~~~

 
princox 2026-02-06

Eu estava esperando o Sonnet 5, mas era o Opus 4.6 haha

 
GN⁺ 2026-02-06
Comentários no Hacker News
  • O quadro da bicicleta está meio torto, mas o pelicano em si é excelente
    A imagem pode ser vista aqui

    • Fico me perguntando se houve overfitting na imagem do pelicano
    • Fico curioso se a escolha de palavras como “generate” influencia o resultado do modelo
      Notei na hora que as duas pernas do pelicano estavam do mesmo lado, mas confirmei na Wikipedia que isso não acontece de verdade
      Também queria saber se testaram ajustar o prompt repetidamente para obter um resultado mais realista
    • Na verdade, a maioria das pessoas também não consegue desenhar uma bicicleta direito
      Frequentemente erram a estrutura do quadro ou as proporções geométricas
    • Também existe uma versão animada
      Link
    • Acho que em algum momento essas saídas vão acabar voltando para o treinamento do modelo e fazendo-o passar no benchmark
  • O GPT‑5.3 Codex mostrou um desempenho dominante no Terminal Bench, com 77,3%
    Impressiona que o recorde tenha sido quebrado em apenas 35 minutos

    • O desempenho do modelo varia conforme o horário ou a carga do servidor, então fico na dúvida se dá para confiar nessa confiabilidade de benchmark
      Será que logo após o lançamento eles rodam no máximo e depois reduzem para cortar custos?
    • Como não há um relatório amplo de benchmarks, fico pensando se isso não virou benchmaxxing
      Gostaria de testar por conta própria e depois trocar opiniões
    • Um salto de 10 pontos no score é uma mudança grande, então fico curioso se isso também traz uma diferença qualitativa no uso real
      Talvez os benchmarks já tenham chegado a um ponto de saturação
    • No Claude swe-bench, o Claude fez 80,8 e o Codex 56,8, então no geral o Claude 4.6 ainda parece levar vantagem
  • Este é um resumo das notas de lançamento do Claude Code
    Inclui várias atualizações, como adição do Opus 4.6, colaboração multi-agent, registro automático de memória, resumo parcial de conversas e melhorias no VSCode

    • A parte de “Claude registra e recupera memórias automaticamente durante o trabalho” é interessante
      Pela documentação do recurso de memória, parece um conceito parecido com o artefato Knowledge do Google Antigravity
  • Acho que há duas coisas sendo confundidas na discussão
    A primeira é a rentabilidade baseada no preço por token, e a segunda é a economia do ciclo de vida do modelo
    O custo de inferência pode gerar lucro, mas o programa completo do modelo ainda pode operar no prejuízo
    A verdadeira questão é: “por quanto tempo o modelo precisa permanecer competitivo para fechar a conta economicamente?”

    • É preciso lembrar de “worse is better
      Mesmo sem ser o melhor, se for bom o suficiente e o custo de migração for alto, ainda pode dominar o mercado
      No início, pode fazer sentido absorver prejuízo para conquistar mercado em um domínio específico, como programação
    • Pelos preços de API, parece haver um pequeno lucro
      Mas um plano em que o uso aumenta 20 vezes parece de sustentabilidade duvidosa
      Não sei se o atual “renascimento do vibe-coding” consegue se manter com essa estrutura de custos
    • Como o Dario disse em um podcast, o modelo é lucrativo ao longo de toda a sua vida útil
      Ver isso apenas em balanços anuais não faz muito sentido para empresas de IA
    • O realmente interessante é saber se o “plano de US$ 200/mês” está sendo subsidiado
      É isso que hoje sustenta o boom da programação com agentes
      Provavelmente há algum subsídio, mas no longo prazo o preço pode dobrar
  • A janela de contexto de 1M é uma melhoria enorme, e estou muito satisfeito

  • Ainda não entendo bem a estratégia da Anthropic
    Faz marketing voltado ao grande público, mas seu ponto forte real é claramente programação
    Para pesquisa geral ou busca de informação, ChatGPT e Gemini são muito mais profundos e se expressam melhor
    Faz marketing de humanidade com coisas como “constituição” e “direitos humanos”, mas no fim parece o mais transacional de todos
    Mesmo assim, é excelente para programar e continuo pagando por ele

    • Fora de código, o Claude também funciona bastante bem em conversas gerais
      Amigos não técnicos meus migraram do ChatGPT para o Claude e não vi ninguém voltar
      Oito meses atrás ele só valia a pena via API, mas agora melhorou bastante
    • Em idiomas além do inglês, a qualidade cai drasticamente
      Sou usuário de tcheco, e o Claude inventa palavras, enquanto o Grok às vezes responde em russo
      Para programação é bom, mas para conversa geral é inviável
    • O modelo não parece cotidiano
      É bom para tarefas agentic ou uso de ferramentas, mas eu não o uso para perguntas do dia a dia
  • O Opus 4.6 não aparecia na instalação, mas surgiu depois que executei o comando de instalação novamente (v2.1.32)
    Guia de instalação

    • Já estou usando
  • Fico curioso se o custo operacional de AI/LLM está realmente caindo
    O conceito de “equipe de agentes” é legal, mas rodar vários modelos ao mesmo tempo parece caro demais para ser algo viável na prática

    • O custo por token vem caindo de forma consistente
      A OpenAI reduziu o preço do o3 para 1/5 com otimizações de engenharia, e outras empresas tiveram economias parecidas
      A antiga ideia de que “perdem dinheiro em toda requisição” não corresponde aos fatos
    • Esse rumor se repete, mas na prática não faz sentido achar que o preço por inferência seja menor que o custo
      A empresa como um todo dá prejuízo por causa de P&D e custos de treinamento, mas o uso da API em si dá lucro
      Até modelos abertos como o DeepSeek conseguem lucrar com preços muito mais baixos
    • Pelos dados reais, não parece possível que operem no prejuízo
      Por exemplo, o Claude 4 (cerca de 400B de parâmetros) é muito mais caro que o DeepSeek V3 (680B)
      Claude: entrada a US$ 1/M e saída a US$ 5/M vs DeepSeek: entrada a US$ 0,4/M e saída a US$ 1,2/M
      Essa diferença existe porque a Anthropic precisa recuperar o custo de treinamento
      Preço do DeepSeek, Preço do Claude
    • O cálculo real de lucro e prejuízo é difícil, porque há muita incerteza em depreciação e vida útil do modelo
      Considerando só a receita de inferência, parece lucrativo, mas olhando o custo total talvez não seja
    • O uso prático de agentes de IA ainda é baixo
      Eu uso como apoio para programação, mas ainda preciso corrigir a rota com frequência
      Mesmo assim, sai muito mais barato do que contratar mão de obra qualificada
  • A frase “We build Claude with Claude” é bem interessante

    • O Claude Code tem mais de 6.000 issues abertas
      Mesmo com limpeza automática após 60 dias de inatividade, esse número continua crescendo
    • Acho que é um produto muito bem-sucedido
      Fora o fato de a frase revelar um certo viés, ela não significa muita coisa
    • Vejo isso como um exemplo da importância de dogfooding
      Usar o próprio produto é uma das melhores formas de melhorar qualidade
    • O sandboxing do CC é quase uma piada
      Isso ajuda a explicar a explosão de wrappers atuais, e parece só questão de tempo até surgir algum incidente de segurança
    • Então isso explica por que o Claude Code é estruturado como um app React sendo renderizado no terminal
  • Estão oferecendo mais US$ 50 em créditos para experimentar o Opus 4.6
    Dá para resgatar direto na página de uso
    Imagino que seja para incentivar mais uso de tokens ou promover o modelo