- Modelo Sonnet mais recente da Anthropic, com melhorias de desempenho em todas as áreas, como escrita de código, uso do computador, raciocínio de longo prazo, planejamento de agentes, trabalho com conhecimento e design
- Suporta janela de contexto de 1M tokens e traz grandes avanços em consistência, execução de instruções e qualidade de código em comparação com o Sonnet 4.5
- Oferece inteligência em nível de Opus 4.5 a um custo menor e mostra resultados em nível humano em trabalho real, compreensão de documentos e design de frontend
- No benchmark OSWorld, a capacidade de uso do computador melhorou continuamente, e a defesa contra prompt injection também foi reforçada
- O ponto central é permitir que desenvolvedores e empresas usem raciocínio e qualidade de código de nível frontier sem precisar de modelos de alto custo
Visão geral do Claude Sonnet 4.6
- O Sonnet 4.6 é o modelo mais poderoso da linha Sonnet da Anthropic, com upgrade geral de capacidades em coding, uso do computador, raciocínio de longo prazo, trabalho com conhecimento e design
- Suporta janela de contexto de 1M tokens (beta), permitindo processar grandes codebases ou documentos longos de uma só vez
- Aplicado como modelo padrão para usuários dos planos Free e Pro, com o mesmo preço do Sonnet 4.5: $3/$15 por 1 milhão de tokens
- Usuários iniciais preferiram amplamente o Sonnet 4.6 ao Sonnet 4.5, e alguns o preferiram até ao Opus 4.5
- Segundo a avaliação de segurança, ele é tão seguro quanto ou mais seguro que o modelo anterior, e foi avaliado como tendo uma “personalidade calorosa, honesta e pró-social”
Capacidade de uso do computador
- O Sonnet 4.6 evoluiu para um modelo capaz de operar um computador como uma pessoa
- Ele manipula softwares reais como Chrome, LibreOffice e VS Code em ambiente virtual, sendo avaliado pelo benchmark OSWorld
- Com melhoria contínua ao longo de 16 meses, mostrou capacidade em nível humano em tarefas como navegação por planilhas complexas e preenchimento de formulários web em várias etapas
- Ainda fica abaixo dos humanos mais experientes, mas a velocidade de ganho em eficiência de trabalho é muito alta
- A defesa contra ataques de prompt injection melhorou bastante em relação ao Sonnet 4.5, alcançando um nível de segurança semelhante ao Opus 4.6
Avaliação de desempenho e benchmarks
- O Sonnet 4.6 oferece inteligência de nível Opus a um custo menor, com melhora geral em vários benchmarks
- Nos testes do Claude Code, 70% dos usuários preferiram o Sonnet 4.6, com melhor compreensão de contexto e menor redundância ao modificar código
- 59% de preferência em relação ao Opus 4.5, com menos overengineering ou preguiça e maior precisão no cumprimento de instruções
- Na Vending-Bench Arena, durante uma simulação de gestão de longo prazo, superou modelos concorrentes com uma estratégia de concentrar os lucros na fase final após investimento inicial
- No OfficeQA, mostrou compreensão de documentos equivalente ao Opus 4.6, e no Financial Services Benchmark houve aumento na taxa de concordância das respostas
- Registrou 94% de precisão no benchmark de seguros e 15% de melhora em desempenho de raciocínio profundo no teste Box
- No teste da Rakuten AI, apresentou geração de código iOS em nível de ponta, com melhor uso de tooling moderno e qualidade de arquitetura
Atualizações de produto e plataforma
- A Claude Developer Platform passa a oferecer adaptive thinking, extended thinking e context compaction (beta)
- Ela resume automaticamente contextos antigos para aumentar o comprimento efetivo do contexto
- Atualizações nas ferramentas de API:
- web search e fetch passam a escrever e executar código automaticamente para filtrar resultados de busca
- Recursos como code execution, memory, programmatic tool calling e tool search estão disponíveis de forma geral
- O add-in Claude in Excel agora suporta conectores MCP, permitindo integração com dados externos de S&P Global, LSEG, PitchBook e outros
- O Sonnet 4.6 mantém alto desempenho mesmo sem extended thinking, e a Anthropic recomenda migração para usuários do Sonnet 4.5
- O Opus 4.6 continua mais adequado para tarefas que exigem raciocínio mais profundo, como refatoração de código e coordenação multiagente
Caminhos de disponibilidade
- O Sonnet 4.6 está disponível em todos os planos Claude, Claude Cowork, Claude Code, API e nas principais plataformas de nuvem
- O plano gratuito também foi atualizado para o Sonnet 4.6, incluindo criação de arquivos, conectores, skills e compaction
- Desenvolvedores podem usá-lo imediatamente na Claude API com o nome de modelo
claude-sonnet-4-6
Principais números e métricas de avaliação (resumo das notas)
- OSWorld: avaliação de tarefas de computador com software real; o Sonnet 4.6 foi medido com ‘thinking off’
- SWE-bench Verified: média de 80,2% em 10 execuções
- ARC-AGI-2: alcançou 60,4% no modo de esforço máximo
- MMMU-Pro: pontuação ajustada após melhoria no método de avaliação
- Em vários experimentos, como Humanity’s Last Exam e BrowseComp, os testes foram realizados com uso de ferramentas, busca na web e compactação de contexto ativados
1 comentários
Comentários do Hacker News
É impressionante o foco em uso de computador. Parece que eles consideram isso muito valioso. Mas a parte de segurança ainda é questionável. Segundo a própria avaliação deles, um sistema automatizado de ataque conseguiu invadir com 8% de chance em uma única tentativa, e com tentativas ilimitadas chegou a 50% de sucesso. É difícil aceitar números assim. A menos que eu tenha entendido algo errado, isso está em um nível inviável para uso real
PDF da avaliação de segurança
Coloquei cerca de 900 poemas da minha coleção pessoal no Sonnet 4.6 para testar, e há uma grande diferença em relação ao Opus 4.6. O Opus 4.6 mostrou análises impressionantes, mas o Sonnet 4.6 ainda tem muita alucinação e erros. Em testes de coding, a impressão foi parecida. Em comparação com o Opus, ele ainda fica bem atrás
O Sonnet 4.6 ainda erra o “problema do lava-rápido”. Coloquei a pergunta original exatamente como estava, e ele respondeu “vá a pé”. Tentei várias variações e ele falhou de forma parecida
Dá para sentir na prática o ditado de que “concorrência é boa para o consumidor”. Quanto mais intensa a competição no mercado, melhor o resultado
O teste do “lava-rápido de helicóptero” foi o melhor. O Sonnet 4.6 respondeu “vá a pé”, e isso foi engraçado porque parecia uma sátira ao hábito dos americanos de dirigir até distâncias curtíssimas
É surpreendente que o Sonnet 4.6 tenha desempenho de nível Opus 4.5. O ritmo de avanço lembra a evolução da capacidade computacional nos anos 1990
O preço do Sonnet 4.5 é $3/$15 per million tokens, e fica a dúvida se muita gente vai aceitar pagar isso. Os modelos open-weight estão alcançando rápido e são bem mais baratos
Atrasei a criação da imagem do pelicano porque estava adicionando suporte a Opus/Sonnet 4.6 no plugin llm.datasette.io. O resultado ficou no nível do Opus 4.5 e com uma bela cartola de seda
Blog relacionado
Nos últimos dias eu vinha testando o Sonnet 4.5, e a conversa estava estranhamente interessante e consistente.
Coloquei nas configurações pessoais algo como “priorizar fatos objetivos e análise crítica, proibir empatia emocional”, e ele realmente seguiu isso muito bem. O ChatGPT reage de forma parecida
Vários usuários relataram que o Opus 4.6 consome de 5 a 10 vezes mais tokens que o 4.5. Link da issue. Ainda não houve resposta oficial. Por isso, pretendem continuar no 4.5