4 pontos por GN⁺ 14 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Desempenho avançado em engenharia de software foi aprimorado, permitindo lidar com tarefas complexas e de longa duração com alta consistência e precisão
  • Reconhecimento visual e compreensão multimodal foram melhorados, tornando possível analisar informações visuais complexas, como imagens em alta resolução, diagramas técnicos e estruturas químicas
  • Proteções de cibersegurança estão integradas para detectar e bloquear automaticamente solicitações de alto risco, e pesquisadores de segurança legítimos podem participar do Cyber Verification Program
  • Novos recursos como controle de Effort, Task Budget e o comando ultrareview melhoram a eficiência em tarefas longas e a capacidade de validação da qualidade de código
  • Melhoria de 13% no desempenho em relação ao Opus 4.6 e alta confiabilidade, enquanto a Anthropic se prepara para a liberação segura de modelos da classe Mythos com base nisso

Visão geral do Claude Opus 4.7

  • Claude Opus 4.7 é um modelo com grande avanço em desempenho avançado de engenharia de software em comparação com o Opus 4.6, processando tarefas complexas e de longa duração com alta consistência e precisão
  • Os usuários podem confiar e delegar tarefas de programação mais difíceis do que antes, e o modelo relata os resultados após fazer sua própria verificação
  • A capacidade de reconhecimento visual foi reforçada, oferecendo alta qualidade e criatividade em imagens em alta resolução, interfaces, slides, documentos e mais
  • Embora tenha capacidade geral inferior ao Claude Mythos Preview da Anthropic, registrou resultados melhores que o Opus 4.6 em diversos benchmarks
  • Está disponível em toda a linha Claude e na API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry, com o mesmo preço do Opus 4.6

Medidas relacionadas à cibersegurança

  • A Anthropic, por meio do Project Glasswing, divulga os riscos e benefícios de cibersegurança da IA, restringe a divulgação do Mythos Preview e decidiu realizar primeiro experimentos de segurança em modelos menos poderosos
  • O Opus 4.7 é o primeiro modelo desse esforço e inclui proteções que detectam e bloqueiam automaticamente solicitações de cibersegurança proibidas ou de alto risco
  • Com base em dados de implantação no mundo real, a empresa está se preparando para uma divulgação mais ampla de futuros modelos da classe Mythos
  • Pesquisadores de segurança legítimos (análise de vulnerabilidades, testes de intrusão, red team etc.) podem participar do Cyber Verification Program

Principais resultados de desempenho e feedback dos usuários

  • Testes iniciais confirmaram a capacidade de detectar erros lógicos por conta própria e aumentar a velocidade de execução
  • Mostra desempenho excelente em workflows assíncronos, CI/CD e automações de longa duração, indo além da simples concordância para oferecer abordagem profunda dos problemas e opiniões próprias
  • Evita inferências incorretas quando faltam dados e não cai em armadilhas de dados inconsistentes
  • Em 93 benchmarks de programação, houve melhoria de 13% em relação ao Opus 4.6, além da resolução de 4 tarefas que antes eram insolúveis
  • Apresenta consistência de nível máximo em eficiência de tarefas multietapas; em módulos financeiros, obteve 0.813, superando o Opus 4.6 (0.767)
  • A compreensão multimodal foi aprimorada, melhorando a interpretação de estruturas químicas e diagramas técnicos complexos
  • A capacidade autônoma de realizar tarefas de longo prazo foi reforçada, permitindo resolver problemas de forma consistente ao longo de várias horas
  • Empresas como Replit, Harvey, Hex, Notion, Databricks e Vercel relataram melhorias em qualidade de código, precisão na chamada de ferramentas e confiabilidade de workflows longos
  • Como exemplo real, desenvolveu de forma totalmente autônoma um motor de síntese de voz em Rust e verificou por conta própria se ele correspondia ao modelo de referência em Python

Principais melhorias observadas nos testes iniciais

  • Precisão na interpretação de instruções

    • O Opus 4.7 interpreta instruções de forma literal e as segue com muito mais rigor do que os modelos anteriores
    • Prompts existentes podem gerar resultados inesperados, então pode ser necessário reajustá-los
  • Reforço no suporte multimodal

    • Pode processar imagens com resolução de até 2.576 pixels (aprox. 3,75 MP)
    • É adequado para tarefas que aproveitam informações visuais detalhadas, como análise de diagramas complexos e extração de dados com base em capturas de tela
  • Desempenho em trabalho real

    • Em análise financeira, apresentações e modelagem, oferece maior especialização e consistência do que o Opus 4.6
    • Na avaliação externa GDPval-AA, também alcançou nível máximo em áreas de trabalho do conhecimento, como finanças e direito
  • Uso de memória

    • Usa de forma eficiente memória baseada em sistema de arquivos, lembrando e reutilizando o contexto de trabalho ao longo de várias sessões

Avaliação de segurança e alinhamento

  • No geral, apresenta um perfil de segurança semelhante ao do Opus 4.6, com baixa incidência de problemas como engano, bajulação e cooperação com uso indevido
  • Honestidade e resistência a injeção de prompts maliciosos melhoraram, mas houve leve enfraquecimento em algumas áreas (por exemplo, aconselhamento excessivo relacionado a drogas)
  • A avaliação concluiu que ele é "em geral bem alinhado e confiável, mas não completamente ideal"
  • O Mythos Preview continua sendo avaliado como o modelo mais bem alinhado

Recursos adicionais lançados

  • Controle de Effort reforçado

    • Foi adicionado um novo nível xhigh entre high e max, permitindo ajuste fino entre capacidade de raciocínio e latência
    • No Claude Code, o nível padrão de Effort foi elevado para xhigh
  • Claude Platform (API)

    • Com suporte a imagens em alta resolução, o recurso Task Budget foi disponibilizado em beta público, permitindo ajustar a prioridade de uso de tokens em tarefas longas
  • Claude Code

    • O novo comando /ultrareview executa sessões de revisão de alterações de código e detecção de bugs
    • Usuários Pro e Max recebem 3 ultrareviews gratuitos
    • O Auto Mode foi expandido para usuários Max, reduzindo etapas de aprovação durante tarefas longas e permitindo execução sem interrupções

Migração do Opus 4.6 para o 4.7

  • O Opus 4.7 permite upgrade direto, mas é preciso atenção a mudanças no uso de tokens
    • Devido ao novo tokenizer, a mesma entrada pode ser convertida em cerca de 1,0 a 1,35 vez mais tokens
    • Níveis mais altos de Effort realizam mais raciocínio, o que pode aumentar os tokens de saída
  • É possível controlar o uso de tokens com o parâmetro Effort, o Task Budget e um design de prompt conciso
  • Testes internos confirmaram melhorias de eficiência em todos os níveis de Effort
  • Métodos detalhados de upgrade são fornecidos no Migration Guide

1 comentários

 
GN⁺ 14 일 전
Comentários do Hacker News
  • Estou achando muito confuso esse novo conceito de adaptive thinking
    Eu vinha escrevendo código com o antigo modo de budget / effort de thinking, mas agora funciona de um jeito completamente diferente
    Mesmo olhando a documentação oficial, ainda não entendi direito
    Além disso, no 4.7 ele não mostra por padrão um resumo de reasoning legível por humanos. É preciso adicionar manualmente a opção "display": "summarized"
    Estou tentando rodar o projeto Pelican agora, mas continuo travando por causa desse novo modo de thinking

    • A resposta do Boris ao meu bug report foi que “parece que o adaptive thinking não está funcionando direito”, mas depois disso não houve mais nenhuma novidade
      Veja a thread relacionada
      Desativei o adaptive thinking e aumentei o effort, e voltou ao nível de antes
      Mas dizer que “nas avaliações internas funciona bem” não basta. Muitos usuários estão relatando o mesmo problema
    • Fez uma piada dizendo que “querer extrair bem o pelican” parece p-hacking (manipulação estatística). O trocadilho é que o p seria o p de pelican
    • Claude Opus 4.6 me deu vários resultados realmente engraçados
      captura de tela
    • No Claude Code, parece que foi adicionada uma opção de linha de comando não oficial, --thinking-display summarized
      Usuários do VS Code podem criar um wrapper script com exec "$@" --thinking-display summarized e colocá-lo na configuração claudeCode.claudeProcessWrapper para voltar a ver o resumo de reasoning
    • Fico me perguntando se agora o Claude não mostra mais o reasoning completo e só exibe o resumo
      Antes, expor o CoT (Chain of Thought) dos LLMs era considerado essencial para segurança, mas parece que a direção mudou
  • O novo tokenizador do Opus 4.7 melhora a eficiência no processamento de texto, mas a entrada é mapeada para 1,0~1,35x mais tokens
    Por isso, acho que a saída do projeto caveman acaba sendo mais legível
    repositório do caveman

    • O caveman, na prática, está mais para um projeto de brincadeira
      Como a maior parte do contexto vai para leitura de arquivos e reasoning, a economia real de tokens não chega nem a 1%. Na verdade, isso pode até confundir o modelo
    • O caveman também é divertido, mas se você quer realmente economizar tokens, headroom é melhor
      app para Mac, versão CLI
    • Fiz um experimento removendo do prompt as 100~1000 palavras mais comuns em inglês
      Achei que palavras frequentes poderiam ser ruído, mas quase não houve diferença no resultado
      Quero fazer um experimento comparativo com o caveman
    • Sugeriram a abordagem do rtk-ai/rtk
    • No meu benchmark interno de petróleo e gás, o Opus 4.7 ficou com 80%, acima do Opus 4.6 (64%) e do GPT-5.4 (76%)
      Isso aconteceu porque o uso de reasoning tokens caiu. Mostra que agora já não faz sentido comparar custo de modelo apenas pelo preço por token
  • Ao ver o anúncio de que a Anthropic lançou o Opus 4.7 como um modelo com restrições de cibersegurança, senti que isso é uma estratégia fracassada
    É contraditório censurar conhecimento de segurança e ao mesmo tempo querer desenvolver software seguro
    A menos que todas as empresas de IA adotem a mesma política, isso nem terá efeito prático. No fim, parece uma abordagem que vai acabar sendo abandonada

    • Não sou especialista em segurança, mas ao compilar projetos open source eu preciso de uma IA que ajude na verificação de vulnerabilidades
      Só que esse tipo de restrição caminha para centralizar a segurança, então é difícil ver isso como um avanço real
    • Sinto que mecanismos de segurança excessivos na fase de treinamento acabam reduzindo a inteligência geral
      É como quando colocam alguém numa entrevista em frente a um quadro branco e o QI parece cair 10%; o modelo também fica retraído
    • Os modelos atuais estão estranhamente inteligentes demais para hacking, mas ainda insuficientes para trabalho econômico
      Então parece que estão indo na direção de “torná-los seletivamente burros”. E parece que esse experimento já está acontecendo
    • No curto prazo, acho que é uma medida aceitável
      Pelo fato de que o atacante só precisa ter sucesso uma vez, enquanto o defensor precisa ter sucesso sempre, isso pode comprar tempo
  • Na semana passada, por causa da queda de qualidade do 4.6, acabei migrando para o Codex
    O 4.6 nem fazia busca na web e preencheu 17K tokens com bobagem. Também implementou de forma totalmente errada um exemplo de processamento paralelo

    • Eu também cancelei a assinatura Pro pelo mesmo motivo
      O uso de tokens explodiu de repente, e a resposta indiferente da equipe de suporte foi a gota d'água
      Entendo bugs, mas a forma como trataram os clientes é difícil de aceitar
      Depois que migrei para o Codex, pelo menos o trabalho anda, e isso já basta
    • Muita gente dizia que a OpenAI iria quebrar por excesso de compute, mas agora isso virou até uma vantagem estratégica
      O Codex dobrou os limites de uso para absorver clientes do Claude, e o PR também está muito melhor
      Parece que 90% dos problemas do Claude vêm de falta de compute
    • Minha teoria da conspiração é que eles derrubam o desempenho de propósito antes de lançar um modelo novo, para a próxima versão parecer melhor
      A IA sempre precisa parecer “em progresso”; estagnação seria a morte do hype
    • Usei o Codex, mas para o meu caso ele era muito inferior
      Ele é rápido, mas não adianta entregar código de baixa qualidade mais rápido
      O Gemini CLI era mais lento e também tinha qualidade pior
      O Codex tem a tendência perigosa de bajular e dizer que está “perfeito” mesmo quando há bugs
    • Ainda assim, o Codex ganhou um lugar no meu toolkit
      Ele tem forte capacidade de execução, e a OpenAI deixa os resultados falarem por si, sem marketing
      Passa uma sensação de competir pela qualidade do produto, como o Google no começo
  • O filtro de cibersegurança do Opus 4.7 ficou tão forte que bloqueia até pesquisa legítima
    Mesmo buscando na web as diretrizes de um programa, a solicitação é barrada como “pedido perigoso”
    Se continuar assim, vou migrar para o Codex

    • Agora eles podem até exigir verificação de identidade (Identity Verification)
      Como nesta orientação oficial, alguns acessos a recursos exigem um processo de verificação
    • Na prática, a API exibe um erro de “violação da Usage Policy” junto com um link para inscrição no Cyber Verification Program
      Por causa disso, toda a minha pesquisa em andamento ficou bloqueada
    • Fui bloqueado no meio da sessão, e a entrada era a mesma
      Talvez o modelo tenha detectado na própria linha de reasoning alguma etapa que parecia “ofensiva”
      Quando a caça a bugs avança para fases mais ofensivas, parece que o filtro entra em ação
      Agora vivemos num mundo em que violação de política é o novo segfault
    • O mais grave é que, até quando estou escrevendo meu próprio código, ele solta sozinho frases como “isto não é malware”
      Basta conter certas palavras para haver reação exagerada
      Agora parece que eu tenho que pedir permissão à IA para saber se meu projeto é malicioso ou não. Vou cancelar a assinatura
    • Até uma tarefa simples de enviar um PDF para a impressora foi recusada
  • Esta thread é uma boa lição para fundadores
    Ela mostra o quanto um pouco de comunicação honesta já consegue apaziguar muita insatisfação
    Como alguém que deixou o app travado no Opus 4.5, agora já nem consigo distinguir se o problema é do modelo ou do harness

    • Nessas threads sempre aparece a superstição de que “a Anthropic nerfou o modelo”
      Às vezes foi só azar mesmo
    • Se eles realmente desaceleraram o modelo de propósito por causa de carga, é importante dizer isso com clareza
      Aí eu poderia ajustar meu horário de trabalho e deixar as tarefas pesadas para a noite
    • O Opus 4.5 era consistente, mas o 4.6 ficou irregular
    • Sou um desenvolvedor iniciante e ainda estou aprendendo as diferenças entre os modelos
      No meio dessa confusão, acho sensato usar um model broker ou uma camada intermediária como o Copilot
    • Por causa dessa instabilidade, os usuários estão ficando paranoicos
      Sinto falta de um serviço que ofereça um “AI padrão”, com o mesmo modelo sempre
  • Nos benchmarks privados da nossa equipe, o Opus 4.7 é mais estratégico e inteligente que o 4.6/4.5
    Ele está praticamente no mesmo nível do GPT-5.4 e, em sessões agentic com uso de ferramentas, chega até a mostrar o melhor desempenho
    link do benchmark
    Mas houve uma pequena regressão no tratamento de contexto. Estamos adicionando um benchmark para visualizar isso

    • Fiquei curioso por que a taxa de sucesso do Opus 4.7 é menor que a do Sonnet 4.6, mas o percentil médio é maior
    • Também perguntaram se o 4.6 ou o 4.5 sofreram regressão de desempenho depois do lançamento inicial
  • Ultimamente a confiança na Anthropic caiu
    Ver o 4.7 sair logo depois do downgrade do 4.6 deixa tudo mais preocupante
    Agora é preciso haver comunicação transparente

    • O centro do problema é a falta de compute
      A OpenAI investiu cedo em compute, e agora isso virou uma grande vantagem
    • Talvez o desempenho do Opus tenha caído porque estão treinando o Mythos
      Pode ser que estejam destilando (distillation) o Mythos no Opus 4.7
    • Fico curioso por que até o Claude baseado em Bedrock ficou mais lerdo
      Provavelmente a causa foi uma atualização do harness
    • A integração de verificação Persona ID foi a gota d'água. Saí depois disso
    • Fico em dúvida se dá para continuar sustentando isso desse jeito
  • Ultimamente aumentaram muito os comentários do tipo “migrei para o Codex
    Mas, usando na prática, o Codex ainda não alcança o nível do Claude
    Esse tipo de comentário promocional só prejudica a credibilidade

    • Ainda assim, na prática muitos desenvolvedores preferem o Codex
      Na nossa empresa usamos os dois modelos, mas agora eu quase só uso o Codex
      Sinto que a velocidade e os resultados são melhores
    • Também fiz um piloto curto, e o Codex resolveu problemas mais de 4x mais rápido que o Claude
      Mas a qualidade das respostas do Claude é melhor. Os prós e contras são bem claros
    • Quando pedi a mesma tarefa de refatoração, o Codex levou 5 minutos e o Claude 20
      Mas o Codex produziu um resultado “tecnicamente correto, mas humanamente estranho”
      Então eu uso o Claude para escrever a especificação e o Codex para executar
    • Com ironia, disseram “Java é o melhor”, como se esse debate no fim não fosse diferente de uma guerra de linguagens de programação
    • Criticam a OpenAI por estar aumentando participação de mercado com uma estratégia excessiva de subsídios
      A suspeita é que depois vão aumentar os preços
  • A política de restrições de segurança do Opus 4.7 pode ser fatal
    Pesquisar ataques e defender-se contra eles exige capacidades simétricas, e bloquear isso é perigoso

    • Isso provavelmente é uma medida para o posicionamento do produto Mythos
    • Agora, para fazer pesquisa legítima de segurança, a pessoa precisa enganar o modelo
    • Se essa política continuar, pretendo sair da plataforma
    • Há quem ache que o termo “fatal” exagera e pergunte de onde exatamente viria essa assimetria
    • No fim, parece que estamos caminhando para uma era em que só softwares aprovados pela Anthropic ou pelo governo serão considerados seguros