9 pontos por GN⁺ 2026-02-18 | 1 comentários | Compartilhar no WhatsApp
  • Modelo Sonnet mais recente da Anthropic, com melhorias de desempenho em todas as áreas, como escrita de código, uso do computador, raciocínio de longo prazo, planejamento de agentes, trabalho com conhecimento e design
  • Suporta janela de contexto de 1M tokens e traz grandes avanços em consistência, execução de instruções e qualidade de código em comparação com o Sonnet 4.5
  • Oferece inteligência em nível de Opus 4.5 a um custo menor e mostra resultados em nível humano em trabalho real, compreensão de documentos e design de frontend
  • No benchmark OSWorld, a capacidade de uso do computador melhorou continuamente, e a defesa contra prompt injection também foi reforçada
  • O ponto central é permitir que desenvolvedores e empresas usem raciocínio e qualidade de código de nível frontier sem precisar de modelos de alto custo

Visão geral do Claude Sonnet 4.6

  • O Sonnet 4.6 é o modelo mais poderoso da linha Sonnet da Anthropic, com upgrade geral de capacidades em coding, uso do computador, raciocínio de longo prazo, trabalho com conhecimento e design
    • Suporta janela de contexto de 1M tokens (beta), permitindo processar grandes codebases ou documentos longos de uma só vez
  • Aplicado como modelo padrão para usuários dos planos Free e Pro, com o mesmo preço do Sonnet 4.5: $3/$15 por 1 milhão de tokens
  • Usuários iniciais preferiram amplamente o Sonnet 4.6 ao Sonnet 4.5, e alguns o preferiram até ao Opus 4.5
  • Segundo a avaliação de segurança, ele é tão seguro quanto ou mais seguro que o modelo anterior, e foi avaliado como tendo uma “personalidade calorosa, honesta e pró-social”

Capacidade de uso do computador

  • O Sonnet 4.6 evoluiu para um modelo capaz de operar um computador como uma pessoa
    • Ele manipula softwares reais como Chrome, LibreOffice e VS Code em ambiente virtual, sendo avaliado pelo benchmark OSWorld
  • Com melhoria contínua ao longo de 16 meses, mostrou capacidade em nível humano em tarefas como navegação por planilhas complexas e preenchimento de formulários web em várias etapas
  • Ainda fica abaixo dos humanos mais experientes, mas a velocidade de ganho em eficiência de trabalho é muito alta
  • A defesa contra ataques de prompt injection melhorou bastante em relação ao Sonnet 4.5, alcançando um nível de segurança semelhante ao Opus 4.6

Avaliação de desempenho e benchmarks

  • O Sonnet 4.6 oferece inteligência de nível Opus a um custo menor, com melhora geral em vários benchmarks
    • Nos testes do Claude Code, 70% dos usuários preferiram o Sonnet 4.6, com melhor compreensão de contexto e menor redundância ao modificar código
    • 59% de preferência em relação ao Opus 4.5, com menos overengineering ou preguiça e maior precisão no cumprimento de instruções
  • Na Vending-Bench Arena, durante uma simulação de gestão de longo prazo, superou modelos concorrentes com uma estratégia de concentrar os lucros na fase final após investimento inicial
  • No OfficeQA, mostrou compreensão de documentos equivalente ao Opus 4.6, e no Financial Services Benchmark houve aumento na taxa de concordância das respostas
  • Registrou 94% de precisão no benchmark de seguros e 15% de melhora em desempenho de raciocínio profundo no teste Box
  • No teste da Rakuten AI, apresentou geração de código iOS em nível de ponta, com melhor uso de tooling moderno e qualidade de arquitetura

Atualizações de produto e plataforma

  • A Claude Developer Platform passa a oferecer adaptive thinking, extended thinking e context compaction (beta)
    • Ela resume automaticamente contextos antigos para aumentar o comprimento efetivo do contexto
  • Atualizações nas ferramentas de API:
    • web search e fetch passam a escrever e executar código automaticamente para filtrar resultados de busca
    • Recursos como code execution, memory, programmatic tool calling e tool search estão disponíveis de forma geral
  • O add-in Claude in Excel agora suporta conectores MCP, permitindo integração com dados externos de S&P Global, LSEG, PitchBook e outros
  • O Sonnet 4.6 mantém alto desempenho mesmo sem extended thinking, e a Anthropic recomenda migração para usuários do Sonnet 4.5
  • O Opus 4.6 continua mais adequado para tarefas que exigem raciocínio mais profundo, como refatoração de código e coordenação multiagente

Caminhos de disponibilidade

  • O Sonnet 4.6 está disponível em todos os planos Claude, Claude Cowork, Claude Code, API e nas principais plataformas de nuvem
  • O plano gratuito também foi atualizado para o Sonnet 4.6, incluindo criação de arquivos, conectores, skills e compaction
  • Desenvolvedores podem usá-lo imediatamente na Claude API com o nome de modelo claude-sonnet-4-6

Principais números e métricas de avaliação (resumo das notas)

  • OSWorld: avaliação de tarefas de computador com software real; o Sonnet 4.6 foi medido com ‘thinking off’
  • SWE-bench Verified: média de 80,2% em 10 execuções
  • ARC-AGI-2: alcançou 60,4% no modo de esforço máximo
  • MMMU-Pro: pontuação ajustada após melhoria no método de avaliação
  • Em vários experimentos, como Humanity’s Last Exam e BrowseComp, os testes foram realizados com uso de ferramentas, busca na web e compactação de contexto ativados

1 comentários

 
GN⁺ 2026-02-18
Comentários do Hacker News
  • É impressionante o foco em uso de computador. Parece que eles consideram isso muito valioso. Mas a parte de segurança ainda é questionável. Segundo a própria avaliação deles, um sistema automatizado de ataque conseguiu invadir com 8% de chance em uma única tentativa, e com tentativas ilimitadas chegou a 50% de sucesso. É difícil aceitar números assim. A menos que eu tenha entendido algo errado, isso está em um nível inviável para uso real
    PDF da avaliação de segurança

    • O objetivo dessa tecnologia é, na prática, monopolizar o trabalho ligado a I/O de computador. Não só SWE, mas a maior parte dos trabalhos de escritório entra nisso. Faz uma pessoa fazer o trabalho de três e incentiva corte de pessoal. Do ponto de vista das empresas, não há motivo para recusar se elas puderem ganhar o mesmo reduzindo custos trabalhistas para 1/3. Mas, nessa estrutura, qualquer um pode criar um negócio com LLM, e no fim a concorrência fica excessiva e a margem converge para zero. Se todo mundo usa o mesmo modelo, desaparece a diferenciação. Até modelos open source fortes podem acabar enfraquecendo a mobilidade social
    • Eu até acho que 8% é surpreendentemente bom. O importante não é tanto o modelo em si, e sim os mecanismos de controle do ambiente operacional. Em um serviço real, monitoramento e kill switch são indispensáveis. O modelo ser “seguro o suficiente” é condição necessária, mas não suficiente
    • Esse é o problema central que ninguém quer mencionar. Se a segurança não for resolvida, substituição massiva de trabalho é impossível. Uso para resumo ou assistência tudo bem, mas se você entregar tomada de decisão autônoma, o risco jurídico explode. No fim, se as empresas de AI não resolverem isso, o caixa vai secar. Pelo rumo atual, AI deve continuar como uma ferramenta útil, tipo busca ou corretor ortográfico, mas não parece que vai substituir empregos em massa
    • Na prática, isso pode ser útil em coisas como automação de apps internos simples e repetitivos. Por exemplo, entrar todo dia no mesmo webapp, ler o calendário e clicar em botões. Nesse tipo de ambiente não há atacante, então o problema de segurança quase desaparece
    • Os números de 8% e 50% preocupam, mas isso foi no “ambiente de uso de computador”. Em ambiente de coding, com pensamento estendido ativado, deu 0,0%. Ou seja, ainda está em território experimental
  • Coloquei cerca de 900 poemas da minha coleção pessoal no Sonnet 4.6 para testar, e há uma grande diferença em relação ao Opus 4.6. O Opus 4.6 mostrou análises impressionantes, mas o Sonnet 4.6 ainda tem muita alucinação e erros. Em testes de coding, a impressão foi parecida. Em comparação com o Opus, ele ainda fica bem atrás

    • Teve gente dizendo que ficou feliz em ver teste com poesia de novo. Também acharam que seria bom reunir e organizar essas análises em um só lugar
    • O Opus 4.6 traz mais de 3x de ganho de produtividade ao escrever código. Ele lida com o projeto inteiro de forma responsável e entende bem a intenção do usuário. Não fica mais pegando atalhos escondidos ou estragando o resultado como versões anteriores
  • O Sonnet 4.6 ainda erra o “problema do lava-rápido”. Coloquei a pergunta original exatamente como estava, e ele respondeu “vá a pé”. Tentei várias variações e ele falhou de forma parecida

    • No meu teste, foi o contrário: ele respondeu de cara “vá dirigindo”. Foi categórico no estilo “você vai lavar o carro, então precisa estar com o carro”. Talvez tenham servido versões diferentes para cada um
    • Esse extremo entre respostas é interessante. É erro confiante, um padrão clássico de alucinação
    • Em uma resposta, ele sugeriu “empurre o carro até lá”. Link compartilhado
    • Outra resposta foi “vá a pé, fica a 30 segundos”, dando como motivo o ambiente e a saúde. O pensamento estendido estava desligado
    • Parece que essa pergunta vai acabar sendo muito usada como teste de benchmark daqui para frente
  • Dá para sentir na prática o ditado de que “concorrência é boa para o consumidor”. Quanto mais intensa a competição no mercado, melhor o resultado

    • Mas a competição atual em AI parece mais uma “corrida armamentista sem proteção”. Como é uma estrutura de winner-takes-all, todo mundo investe saindo no prejuízo. Com investimento excessivo, isso pode ser ineficiente para a sociedade como um todo
    • Se pensar que o GPT-2 em 2019 era “perigoso demais para ser lançado”, o lançamento do ChatGPT foi o gatilho dessa corrida
    • É perigoso acreditar que todo mercado funciona como concorrência perfeita. Na prática, há muitos monopólios e assimetria de informação
    • O mercado de AI hoje é uma das estruturas competitivas mais intensas da história humana. A teoria conspiratória de que eles pioram os modelos de propósito não convence
    • No fim, quando sobrarem só duas empresas, vai chegar a fase de recuperar lucro
  • O teste do “lava-rápido de helicóptero” foi o melhor. O Sonnet 4.6 respondeu “vá a pé”, e isso foi engraçado porque parecia uma sátira ao hábito dos americanos de dirigir até distâncias curtíssimas

    • Teve gente dizendo que esse foi o teste favorito. Dá para sentir que o modelo foi treinado com dados de humor estilo Reddit
  • É surpreendente que o Sonnet 4.6 tenha desempenho de nível Opus 4.5. O ritmo de avanço lembra a evolução da capacidade computacional nos anos 1990

    • O realmente interessante não é o topo subir, e sim o piso estar subindo. Conseguir raciocínio nível Opus com preço e latência de Sonnet é algo revolucionário. É como obter a mesma unidade de inteligência a metade do custo computacional a cada 6 a 9 meses
    • Em resposta ao comentário sobre “velocidade dos anos 1990”, veio a piada de que “o preço da RAM também está naquele nível”
    • Em vez de simonw, alguém gerou e compartilhou um “SVG de pelicano andando de bicicleta”. Link da imagem
    • Também houve um caso em que o Opus descreveu errado uma foto do skyline de NYC. O Mistral foi mais preciso. A OpenAI bloqueou upload por URL, e o Gemini direcionou para VertexAI. Testaram isso em ambiente Langchain
    • Segundo o system card, o Sonnet 4.6 é explicitamente melhor que o Opus 4.6 em trabalho de escritório e análise financeira
  • O preço do Sonnet 4.5 é $3/$15 per million tokens, e fica a dúvida se muita gente vai aceitar pagar isso. Os modelos open-weight estão alcançando rápido e são bem mais baratos

    • Eu estou tentando uma abordagem híbrida. Faço quase tudo com GLM5 e, na etapa final, uso Opus/Sonnet para revisar bugs
    • No meu benchmark simples, o Claude 4.6 foi pior que o Stepfun 3.5 gratuito. Veja aibenchy.com. A precisão em seguir instruções ainda continua baixa
    • No fim, é uma questão de quanto você valoriza a diferença entre “bem decente” e “SOTA”. Usar um modelo que erra muito também tem custo
    • Algumas pessoas preferem modelos como Claude, que são fortes em raciocínio contextual. O GLM exige que muita coisa seja explicitada em detalhe
  • Atrasei a criação da imagem do pelicano porque estava adicionando suporte a Opus/Sonnet 4.6 no plugin llm.datasette.io. O resultado ficou no nível do Opus 4.5 e com uma bela cartola de seda
    Blog relacionado

    • Houve comentário dizendo que também viu esse pelicano de cartola de seda em outras tentativas
  • Nos últimos dias eu vinha testando o Sonnet 4.5, e a conversa estava estranhamente interessante e consistente.
    Coloquei nas configurações pessoais algo como “priorizar fatos objetivos e análise crítica, proibir empatia emocional”, e ele realmente seguiu isso muito bem. O ChatGPT reage de forma parecida

  • Vários usuários relataram que o Opus 4.6 consome de 5 a 10 vezes mais tokens que o 4.5. Link da issue. Ainda não houve resposta oficial. Por isso, pretendem continuar no 4.5

    • Quem está tendo problema costuma ser quem fala mais alto. Eu estou satisfeito porque o 4.6 está mais rápido e mais proativo nas chamadas de ferramentas. Se baixar o reasoning level para medium, dá para reduzir pensamento excessivo
    • Pela minha experiência, o Opus 4.5 era mais de seguir o plano, e o 4.6 é mais adaptativo e exploratório. Em problemas fáceis ele é ineficiente, mas em problemas difíceis é muito mais rápido
    • Dá para verificar o reasoning level em /models. Se estiver em high, o uso de tokens dispara
    • Eu também torrei todo o orçamento mensal em poucos dias
    • Nos meus testes, o 4.6 usou cerca de 15% a 45% mais tokens que o 4.5. Mas isso foi em casos que exigiam inferência com prompts incompletos. Em tarefas bem especificadas, a diferença não é grande. Os reasoning tokens do Sonnet 4.6 são mais estruturados do que antes, mas tendem a ficar cada vez mais prolixos. O estilo lembra os modelos do Google