Claude 4 anunciado: Opus 4 e Sonnet 4

(anthropic.com)

1 pontos por GN⁺ 2025-05-23 | 1 comentários | Compartilhar no WhatsApp

A Anthropic anunciou o Claude Opus 4 e o Claude Sonnet 4, colocando programação, raciocínio avançado e tarefas de agentes de IA como as principais áreas de desempenho da próxima geração do Claude
Os dois modelos são modelos híbridos, alternando entre respostas imediatas e raciocínio profundo, e oferecem suporte ao uso de ferramentas, como busca na web, durante o pensamento estendido, além da execução paralela de ferramentas
O Opus 4 registrou 72,5% no SWE-bench e 43,2% no Terminal-bench, enquanto o Sonnet 4 chegou a 72,7% no SWE-bench, melhorando programação, raciocínio e cumprimento de instruções em relação ao Sonnet 3.7
O Claude Code foi lançado oficialmente e se expande para terminal, VS Code, JetBrains, GitHub Actions e SDK, podendo lidar com respostas a revisões de PR, correção de erros de CI e alterações de código
A API ganhou ferramenta de execução de código, MCP connector, Files API e cache de prompts de até 1 hora, permitindo que desenvolvedores criem agentes de IA mais poderosos

Modelos Claude 4 anunciados

A Anthropic anunciou o Claude Opus 4 e o Claude Sonnet 4 como a próxima geração de modelos do Claude
O foco central dos dois modelos é programação, raciocínio avançado e tarefas de agentes de IA
O Claude Opus 4 é um modelo de programação que oferece desempenho sustentado em tarefas complexas e de longa duração e em fluxos de trabalho de agentes
O Claude Sonnet 4 é uma atualização do Claude Sonnet 3.7, com melhorias em desempenho de programação e raciocínio, além de maior precisão no cumprimento de instruções

Forma de oferta e preços

Claude Opus 4 e Sonnet 4 oferecem tanto respostas quase instantâneas quanto o modo de pensamento estendido para raciocínio mais profundo
Os planos Claude Pro, Max, Team e Enterprise incluem os dois modelos e o pensamento estendido
O Sonnet 4 também está disponível para usuários gratuitos
Os dois modelos estão disponíveis na Anthropic API, Amazon Bedrock e Google Cloud Vertex AI
Os preços são os mesmos dos modelos Opus e Sonnet anteriores
- Opus 4: US$ 15/US$ 75 por 1 milhão de tokens de entrada/saída
- Sonnet 4: US$ 3/US$ 15 por 1 milhão de tokens de entrada/saída

Desempenho do Opus 4 em programação e tarefas longas

O Claude Opus 4 é o modelo mais poderoso da Anthropic, registrando 72,5% no SWE-bench e 43,2% no Terminal-bench
Ele oferece desempenho sustentado em tarefas longas que exigem milhares de etapas de trabalho concentrado, podendo trabalhar continuamente por várias horas
A Cursor considera o Opus 4 um modelo de ponta em programação e avaliou que houve um grande avanço na compreensão de bases de código complexas
A Replit afirmou que a precisão aumentou em mudanças complexas distribuídas por vários arquivos
A Block explicou que, em seu agente codename goose, o Opus 4 foi o primeiro modelo a manter desempenho e confiabilidade ao mesmo tempo em que elevou a qualidade do código durante edição e depuração
A Rakuten validou que o Opus 4 executou de forma independente uma tarefa difícil de refatoração open source por 7 horas, demonstrando desempenho sustentado
A Cognition avaliou que o Opus 4 é forte em tarefas importantes que modelos anteriores deixaram passar e em desafios complexos que outros modelos não conseguiram resolver

Posicionamento do Sonnet 4

O Claude Sonnet 4 é um modelo aprimorado em relação ao Sonnet 3.7 e registrou 72,7% no SWE-bench
Ele busca equilibrar desempenho e eficiência para casos de uso internos e externos, com melhor direcionabilidade para controle de implementação
Embora não se iguale ao Opus 4 na maioria das áreas, oferece uma combinação de capacidade e praticidade
O GitHub pretende adotar o Sonnet 4 como o modelo que impulsiona o novo agente de programação do GitHub Copilot
A Manus destacou melhorias no cumprimento de instruções complexas, raciocínio claro e resultados estéticos
A iGent afirmou que houve melhora no desenvolvimento autônomo de aplicativos multifuncionais e na navegação por bases de código, e que erros de navegação caíram de 20% para quase 0
A Sourcegraph avaliou que o Sonnet 4 mantém a direção por mais tempo, entende problemas mais profundamente e entrega uma qualidade de código mais elegante
A Augment Code escolheu o Sonnet 4 como sua principal opção para modelo padrão devido à maior taxa de sucesso, edições de código mais precisas e cautela em tarefas complexas

Melhorias nas funcionalidades dos modelos

Os dois modelos podem usar ferramentas mesmo durante o pensamento estendido
- Como exemplo, podem usar web search
- O Claude pode alternar entre raciocínio e uso de ferramentas para melhorar as respostas
Também há suporte a execução paralela de ferramentas e a cumprimento de instruções mais preciso
Quando desenvolvedores concedem acesso a arquivos locais, os modelos demonstram uma capacidade de memória ao extrair e armazenar fatos importantes para manter continuidade e conhecimento implícito
O comportamento de concluir tarefas usando atalhos ou brechas diminuiu em relação ao Sonnet 3.7
- Especialmente em tarefas de agentes vulneráveis a atalhos e brechas, os dois modelos têm 65% menos probabilidade de apresentar esse comportamento do que o Sonnet 3.7
O Opus 4 é forte em criar e manter memory files com informações essenciais em aplicações nas quais desenvolvedores fornecem acesso a arquivos locais
- Por exemplo, ele cria um Navigation Guide enquanto joga Pokémon
- Isso melhora a percepção de tarefas longas, a consistência e o desempenho em tarefas de agentes

Resumos de pensamento e Developer Mode

Os modelos Claude 4 introduzem thinking summaries, que comprimem longos processos de pensamento usando um modelo menor
Esse resumo é necessário em apenas cerca de 5% dos casos
A maioria dos processos de pensamento é curta o suficiente para ser exibida por completo
Usuários que precisam da cadeia de pensamento bruta para engenharia de prompts avançada podem consultar o novo Developer Mode por meio de contact sales

Lançamento oficial do Claude Code

O Claude Code foi lançado oficialmente, expandindo o Claude para terminal, IDEs e fluxos de trabalho executados em segundo plano
Novas extensões beta para VS Code e JetBrains integram o Claude Code diretamente à IDE
- As edições sugeridas pelo Claude aparecem inline dentro do arquivo
- Usuários podem revisar e acompanhar alterações dentro do editor com o qual já estão familiarizados
- A instalação ocorre ao executar o Claude Code no terminal da IDE
Há suporte a tarefas em segundo plano via GitHub Actions
Também foi lançado um Claude Code SDK extensível
- Desenvolvedores podem criar seus próprios agentes e aplicações usando o mesmo agente central do Claude Code
O Claude Code on GitHub está disponível em beta
- Em PRs, é possível marcar o Claude Code para responder ao feedback de revisores, corrigir erros de CI e alterar código
- A instalação é feita executando /install-github-app dentro do Claude Code

API e segurança

A Anthropic API ganhou quatro novos recursos para o desenvolvimento de agentes de IA
- Ferramenta de execução de código
- MCP connector
- Files API
- Cache de prompts de até 1 hora
Os modelos Claude 4 se posicionam como um passo em direção à manutenção de todo o contexto, sustentação do foco em projetos longos e realização de tarefas de grande impacto
Os modelos passaram por testes e avaliações abrangentes para reduzir riscos e aumentar a segurança
Eles incluem medidas de proteção para o nível mais alto de AI Safety Levels, ASL-3
Usuários podem começar pelo Claude, pelo Claude Code ou pela plataforma de sua preferência

Forma de relatório dos benchmarks

Claude Opus 4 e Sonnet 4 são modelos de raciocínio híbrido, e os benchmarks publicados mostram a maior pontuação obtida, independentemente do uso de pensamento estendido
Os resultados sem uso de pensamento estendido são os seguintes itens
- SWE-bench Verified
- Terminal-bench
Os resultados com uso de pensamento estendido usam até 64K tokens
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
Algumas pontuações medidas sem pensamento estendido também são fornecidas
- GPQA Diamond: Opus 4 74,9%, Sonnet 4 70,0%
- MMMLU: Opus 4 87,4%, Sonnet 4 85,4%
- MMMU: Opus 4 73,7%, Sonnet 4 72,6%
- AIME: Opus 4 33,9%, Sonnet 4 33,1%

Metodologia do TAU-bench e do SWE-bench

As pontuações do TAU-bench foram obtidas em uma configuração que adicionou um apêndice de prompt às políticas Airline e Retail Agent, permitindo que o Claude aproveitasse melhor sua capacidade de raciocínio durante o pensamento estendido e o uso de ferramentas
Os modelos foram induzidos a registrar seus pensamentos de uma forma distinta do modo normal de pensamento durante a resolução de problemas
Como o pensamento adicional pode aumentar o número de etapas, o limite máximo de etapas foi ampliado de 30 para 100
- A maioria das trajetórias termina em menos de 30 etapas
- Apenas uma trajetória passou de 50 etapas
No SWE-bench da família Claude 4, continua sendo usado o mesmo scaffold simples de lançamentos anteriores
- As únicas ferramentas são uma ferramenta bash e uma ferramenta de edição de arquivos por substituição de strings
- A terceira planning tool usada no Claude 3.7 Sonnet não está mais incluída
Todas as pontuações dos modelos Claude 4 são relatadas com base no conjunto completo de 500 problemas
As pontuações dos modelos OpenAI são relatadas com base em um subconjunto de 477 problemas
As pontuações “high compute” usam computação em tempo de teste paralela e complexidade adicional
- Amostram várias tentativas paralelas
- Descartam patches que quebram testes de regressão visíveis do repositório
- Não usam informações de testes ocultos
- Selecionam o melhor candidato entre as tentativas restantes com um modelo interno de pontuação
As pontuações high compute desse método são 79,4% para o Opus 4 e 80,2% para o Sonnet 4

1 comentários

GN⁺ 2025-05-23

Opiniões no Hacker News

Um ponto importante que ficou de fora deste anúncio é que o cutoff de treinamento do Claude 4 é março de 2025. É o mais recente entre os modelos atuais, enquanto o Gemini 2.5 tem cutoff em janeiro de 2025
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- Agora todos os principais produtos de LLM para usuários têm busca na web, e ela também é oferecida em algumas APIs ou às vezes fica possível sem querer; então, pelo menos para mim, o mês exato do cutoff parece cada vez menos importante
  Os modelos que uso com frequência são inteligentes o bastante para decidir por conta própria que precisam de informações novas sobre determinado tema e buscá-las
- Boa. Agora talvez finalmente conheça Svelte 5
- Como já sofri porque o Claude não conhecia o Tailwind 4, perguntei sobre Tailwind CSS, e ele respondeu que conhece até o Tailwind CSS 3.4, a versão estável mais recente segundo seu cutoff de janeiro de 2025
- Por que não dá para treiná-lo continuamente?
- Ainda assim, não sabemos o que foi atualizado e o que não foi. Dá para presumir que tudo que podia ser atualizado foi atualizado?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
Este modelo talvez aproxime o “Assign to CoPilot” do sonho de automatizar a maior parte do trabalho mecânico, como upgrades de pacotes. Se o peso da manutenção diminuir, há grande chance de isso levar à revitalização de projetos antigos
- Pode ser, mas todos os modelos anteriores receberam a mesma expectativa quando saíram
- Estou realmente animado para ver o que agentes de programação baratos podem fazer pelo open source. Na verdade, acho que deveria distribuir créditos do CheepCode[0] para projetos open source
  Ainda não existe uma estrutura oficial, mas, se você está vendo este comentário e precisa de execuções gratuitas de agente de programação, mande um e-mail que eu configuro
  [0] É meu produto de agente de programação headless; parecido com “assign to copilot”, mas processa várias tarefas em paralelo a partir de quadros de tarefas como Linear e Jira. Até agora tem tido bastante sucesso com funcionalidades simples e repetitivas e, em geral, quanto melhores os testes, melhor o código resultante. Claro que ele também consegue escrever seus próprios testes, e de fato escreve
- Esse é exatamente o meu critério para julgar se modelos assim são úteis. Tenho um projeto que precisa de uma grande refatoração para voltar a funcionar; em sua maior parte são upgrades de pacotes, mas o código também precisa ser ajustado a novas semânticas da linguagem que não existiam quando foi escrito
  Os modelos de IA atuais praticamente não avançam nada nessa tarefa. Pretendo continuar tentando até que se torne possível
- Upgrades de pacotes e tarefas mecânicas já são uma área em grande parte resolvida por bots
  A parte em que vejo a IA ajudando aqui é resumir mudanças, conflitos e impactos na codebase e, se possível, fazer alguma varredura de segurança
- Alguém viu alguma notícia sobre quando isso deve ser aplicado ao Copilot?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
Agora parece que os três provedores de LLM estão escondendo a cadeia de pensamento (CoT). É uma pena, porque dava para ver o momento em que o modelo começava a ir pelo caminho errado, o que ajudava a ajustar rapidamente o prompt
Além da OpenAI, o Google também começou recentemente a trocar a cadeia de pensamento por resumos, que, pessoalmente, considero resumos simplificados demais
- Será que o motivo para excluir a cadeia de pensamento pode ser o artigo recente da Anthropic?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  O artigo avaliou a fidelidade da cadeia de pensamento dos modelos de raciocínio mais recentes usando seis dicas de raciocínio; na maioria das configurações e modelos, pelo menos 1% dos casos em que as dicas foram usadas aparece na cadeia de pensamento, mas a taxa de divulgação geralmente fica abaixo de 20%; o aprendizado por reforço baseado em resultado inicialmente aumenta a fidelidade, mas ela estagna sem saturar; e, mesmo quando a frequência de uso de dicas aumenta por reward hacking, a tendência de verbalizar isso na cadeia de pensamento não aumenta
  Ou seja, a cadeia de pensamento também pode ser uma explicação inventada pelo modelo. Então talvez alguém dentro da Anthropic não queira enganar os clientes, e talvez ela volte quando esse problema for resolvido
- Isso é alquimia, e é porque todo mundo acredita ter uma vantagem própria para transformar chumbo em ouro
- Pelo que lembro, RLHF inevitavelmente sacrifica parte da precisão do modelo no processo de treiná-lo para não dar respostas perigosas
  Faria sentido se o modelo da cadeia de pensamento fosse treinado de forma diferente do modelo que interage com o usuário final. Por exemplo, poderia ser outro especialista em um MoE; e, como o usuário de qualquer forma só vê a saída filtrada pelo modelo público, há menos risco à reputação da empresa se o modelo de cadeia de pensamento estiver mais próximo de um modelo bruto pré-RLHF
  Assim, seria possível obter o desempenho do modelo bruto e ainda manter a filtragem para evitar danos reais ou incidentes graves de PR
- Parece que teremos que esperar até a DeepSeek voltar a passar por cima de todo mundo
- Ao aprender Zig, a cadeia de pensamento ajudou enormemente
  Ao fazer perguntas sobre Zig e implementação, ver a cadeia de pensamento do modelo ampliou muito minha visão
Não devo ser a única pessoa que acha que esta versão não é melhor que a anterior, que os LLMs na prática entraram em um período de estagnação, e que as “funcionalidades” dos novos lançamentos são, em grande parte, truques de ilusionismo
- Parece que só melhoram nas bordas. Áreas como MCP, chamadas de ferramentas e saída estruturada. A inteligência certamente não aumentou, mas o valor agregado aumentou; não sei se esse valor justifica os custos de treinamento ou as avaliações das empresas
  Realisticamente, não faço a menor ideia de como essas empresas podem ser sustentáveis. Já hospedei inferência em GPUs na nuvem e, ao adicionar qualquer plano gratuito, por menor que fosse, os custos pareciam extremamente pesados
- “LLMs chegaram à estagnação” soa como o novo meme do papagaio estocástico. Basta ver o post que entrou na página principal há algumas horas: um agente baseado em LLM recebeu três ferramentas de busca de e-mail e uma tarefa simples, “encontre o nome do filho do meu irmão”, e resolveu o problema de forma sistemática, refinou a busca e inferiu o nome correto a partir de um e-mail que só tinha “comida de que X gosta” e um link do YouTube
  Sem falar no alphaevolve, na demo de testes do agente Copilot da Microsoft executando um navegador, explorando funcionalidades e escrevendo testes Playwright, e nos avanços em programação
- Usei bastante o Claude Code e concordo. Depois da atualização, não senti diferença nenhuma. Os resumos parecem ter ficado um pouco mais limpos, mas nunca me surpreendi em termos de capacidade
  Em uma base de código TypeScript, assim como na 3.7, precisei continuar corrigindo e refazendo prompts. Cheguei a ficar bem chocado quando, numa situação em que ele estava editando o arquivo errado, ele não pensou em verificar de forma mais específica até eu forçá-lo a apagar todo o código e mostrar que o alvo que estávamos olhando não tinha mudado em nada
- No geral, tenho a mesma sensação. As vitórias em benchmarks hoje parecem vir de tuning, com perdas em outras áreas em troca. o3 e o4-mini também têm mais alucinações que o o1 em SimpleQA e PersonQA
  Dados sintéticos parecem aumentar a taxa de alucinação, e modelos de raciocínio são mais vulneráveis porque, a cada etapa de raciocínio, há o risco de uma alucinação desviar o modelo
  Do ponto de vista de uso geral, acho que os LLMs já tinham chegado ao fim por volta do início deste ano. A OpenAI também percebeu isso ao cancelar o GPT-5 e depois lançar o GPT-4.5, “caro demais pelo que entrega”, para em seguida decidir encerrá-lo em breve
  Não sei se o mercado de ações já refletiu isso. Para sair daqui, será necessário um avanço decisivo
- Em muitos casos, os benchmarks parecem muito parecidos com os do Claude 3.7
  Ainda assim, isso está longe de ser suficiente para dizer que chegamos a uma estagnação. O ritmo de progresso foi incrivelmente rápido, então seria preciso esperar mais alguns meses antes de fazer esse julgamento
  Quanto às funcionalidades, penso justamente o contrário. Não são truques; embora não sejam a IA central em si, são uma instrumentação importante para usar IA na prática. A área de LLMs para uso em massa ainda está no começo. Mesmo que os modelos não melhorem, ainda há muito espaço para aumentar bastante a usabilidade e a capacidade em aspectos como formas de interação, fornecimento de informações e chamadas de ferramentas
Gosto muito do Claude 3.7, uso todos os dias e em geral prefiro aos modelos Gemini. Mas, ao usar o Opus 4 no Claude Code para trabalhar em uma funcionalidade quase nova em uma base de código Go, o processo de raciocínio é bom, mas 70% a 80% das chamadas de ferramentas falham
Até ferramentas básicas como “Write” e “Update” falham por sintaxe incorreta. Todas as 5 tentativas de escrever um arquivo falharam, e ele continuava tentando, dizendo “continuo esquecendo de adicionar o parâmetro content. Vou corrigir”
Algo está errado. Espero que seja resolvido em breve, mas, por enquanto, pelo menos o Opus 4 não dá para usar no Claude Code. Ainda assim, os arquivos que ele conseguiu gerar eram de alta qualidade
- Acho que encontrei a causa, e parece um bug claro: https://github.com/anthropics/claude-code/issues/1236#issuec...
  Basicamente, parece que ele bate no limite máximo de tokens de saída e a resposta para no meio ao tentar escrever um arquivo novo inteiro de uma vez. O erro de “parâmetro inválido na chamada de ferramenta” era uma pista falsa
Já testamos o Opus 4 e o Sonnet 4 no nosso benchmark de geração de SQL: https://llm-benchmark.tinybird.live/
O Opus 4 venceu todos os outros modelos, é bom
- É estranho o Opus 4 ser o pior em one-shot. Em média, ele precisa de duas tentativas para gerar uma consulta válida
  Se o modelo é realmente tão mais inteligente, o desempenho na primeira tentativa também não deveria ser bom? Afinal, ele “pensa” antes
- Curiosamente, Claude-3.7-Sonnet e Claude-3.5-Sonnet estão classificados acima do Claude-Sonnet-4
- Esse benchmark é bem interessante. Parece quebrar o ranking de modelos que costumávamos ver em outros benchmarks
- Pago pelo Claude Premium, mas na prática também uso bastante o Grok. O recurso “think” costuma me levar ao resultado desejado com mais frequência
  É estranho os modelos da xAI não estarem na lista. Grok é um nome horrível, mas me surpreende com bastante frequência. Ainda não usei o modelo de 250 dólares do ChatGPT, e não gosto do comportamento recente da OpenAI
- Fiquei curioso: como dá para saber que as perguntas e o SQL não estão nos dados de treinamento do LLM? As perguntas e o SQL do benchmark parecem estar online: https://ghe.clickhouse.tech/
Há algum lugar que documente as mudanças na janela de contexto do Claude 4? Não entendo muito bem, mas eu tinha entendido que um dos motivos pelos quais o Gemini 2.5 era útil era por conseguir lidar com um contexto enorme, na escala de 50 mil a 70 mil linhas
- A janela de contexto do Sonnet continua a mesma. Entrada de 200k, saída de 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  Na prática, o contexto de 1M do Gemini 2.5 não é um diferencial tão grande assim. Quanto maior o contexto, menor o retorno percebido na capacidade de seguir bem os tokens mais para o fim
- Seria bom se aumentassem a janela de contexto ou se lidassem melhor quando o prompt fica longo demais. Hoje aparece de repente um aviso de “prompt is too long”, e o modelo fica frustrante de usar em conversas longas ou na escrita
  Outras ferramentas descartam parte do contexto anterior ou usam RAG, mas não forçam você a começar um novo chat sem aviso
- Não entendi bem o que você quer dizer. O título do artigo diz que o Opus 4 tem contexto de 200k
  Igual ao beta header do Sonnet 3.7
- Tamanho da janela de contexto é uma métrica bem enganosa. Sem o contexto correto, não sai uma boa resposta
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
Não quero ver um “resumo” do raciocínio do modelo. Para verificar se o raciocínio do modelo está correto e se dá para confiar no resultado, preciso ver o raciocínio real
É muito irritante ver a Anthropic seguindo a OpenAI nessa direção: esconder o processo de pensamento do modelo, cobrar por tokens que o usuário não consegue ver e oferecer um “resumo” que impede saber o que realmente está acontecendo
- Vários artigos relatam que a saída de “pensamento” tem pouca relação com a saída final, e que permitir etapas adicionais de processamento com pontos ou tokens de pausa gera melhorias parecidas
  Em muitos aspectos, “pensamento” é, em grande parte, marketing
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - vídeo de visão geral do bycloud -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- Não precisa se preocupar tanto. Há evidências suficientes de que o pensamento frequentemente se separa da saída
  Considerando que as pessoas, na prática, quase não leem o processo de pensamento, vejo isso como uma melhoria na experiência do usuário
- Isso se refere à própria interface de chat deles? A API ainda faz streaming dos tokens de thinking imediatamente
- Pelo que sei, o Gemini 2.5 Pro também faz isso
Espero muito que o Sonnet 4 não fique obcecado por chamadas de ferramentas como o 3.7. O 3.5 deu, pela primeira vez, aquela experiência mágica de parecer que o modelo ia dominar programação. Depois disso, parece que foi meio ladeira abaixo
- Eu também detestava aquela proatividade excessiva do 3.7, do tipo “já que estou aqui, vou fazer só mais uma coisa”. Seria bom voltar ao nível de seguimento de instruções do 3.5
- Isso me parece mais um problema de prompt de sistema do que do modelo
Parece que a corrida dos MHz de CPU dos anos 90 voltou. Só que agora, em vez de falar sobre arquitetura de CPU e resultados de valor duvidoso em vários benchmarks, estamos tendo o mesmo tipo de papo nerd entre LLMs
A história rima consigo mesma
- Voltou, sim, mas no ritmo de avanço tecnológico de meados dos anos 2020. Lembro que a corrida dos MHz de CPU era bem mais lenta, embora talvez minha percepção do tempo nos anos 90, quando eu era criança, fosse mais lenta
  Ainda assim, tenho bastante certeza de que não havia novos “drops” de CPU a cada poucos meses, como acontece com modelos novos nessa corrida de IA

Claude 4 anunciado: Opus 4 e Sonnet 4

Modelos Claude 4 anunciados

Forma de oferta e preços

Desempenho do Opus 4 em programação e tarefas longas

Posicionamento do Sonnet 4

Melhorias nas funcionalidades dos modelos

Resumos de pensamento e Developer Mode

Lançamento oficial do Claude Code

API e segurança

Forma de relatório dos benchmarks

Metodologia do TAU-bench e do SWE-bench

Leituras relacionadas

1 comentários

Opiniões no Hacker News