- Conferência para desenvolvedores da Anthropic: realizada online e presencialmente, com eventos presenciais em São Francisco em 6/5, Londres em 19/5 e Tóquio em 10/6. No evento de São Francisco, foram divulgados vídeos de 19 sessões
- O Claude está evoluindo na direção de executar tarefas mais longas, memória de longo prazo, uso de mais ferramentas e melhor verificação
- A mudança central é que execução iterativa, seleção de ferramentas, verificação, memória e gerenciamento de contexto, antes feitos diretamente pelos desenvolvedores, estão sendo incorporados aos produtos e à plataforma do Claude
- A diferenciação entre produtos e organizações está migrando de como o modelo é chamado para quais ferramentas, dados, permissões e contexto são disponibilizados ao modelo
- Mais do que a escrita de código em si, verificação, segurança, gestão de permissões, observabilidade, sistema de avaliação e operação organizacional estão se tornando os novos gargalos
- As áreas importantes daqui para frente são ferramentas personalizadas, memória confiável, avaliação, fronteiras de segurança, engenharia de contexto (context engineering) e ambiente de trabalho para agentes (agent experience)
- O foco está em melhorias de produto para fazer Claude Code e Claude Platform funcionarem melhor para desenvolvedores
- A maioria dos usuários usa o Claude dentro de produtos criados por desenvolvedores, em vez de usar diretamente a API do Claude ou o terminal
- O uso da API da Claude Platform cresceu quase 17 vezes em relação ao ano anterior
- O desenvolvedor médio do Claude Code executa o Claude por 20 horas por semana
- O limite de uso de 5 horas do Claude Code foi dobrado nos planos Pro, Max, Team e Enterprise baseado em assentos
- O limite da API do Claude Opus também aumentou bastante
- A empresa quer usar a capacidade do data center Colossus One da SpaceX para oferecer mais recursos computacionais a desenvolvedores individuais e pequenas equipes
- O Opus 4.7 melhora desempenho de agentes de codificação, qualidade de planejamento e taxa de resolução de tarefas reais de engenharia na Amp, Rakuten e Intuit
- O Claude do futuro caminha para melhor capacidade de julgamento, contexto e memória maiores, e colaboração entre vários agentes
- Os novos recursos do Claude Code se organizam em dois eixos: usabilidade para desenvolvedores e mais autonomia
- Remote Control permite retomar na web ou no celular uma sessão iniciada no terminal
- A interface de terminal em tela cheia usa scrollback virtual para oferecer renderização sem cintilação e uma tela de chamadas de ferramentas clicável
- A GUI do Claude Code mudou para permitir gerenciar várias sessões com fixação, filtros, agrupamento e tela dividida
- Nas views de plano, diff e arquivos, é possível deixar comentários por linha para que o Claude os reúna e processe depois
- O Auto Mode classifica se uma chamada de ferramenta é destrutiva ou se parece com prompt injection e, se for segura, executa sem pedir confirmação de permissão
- O worktree permite que várias sessões do Claude trabalhem em paralelo, cada uma em seu branch isolado e com sua própria cópia dos arquivos
- A memória automática (auto memory) faz o Claude gerenciar o
memory.md por projeto e arquivos relacionados, reutilizando em sessões futuras comandos de build, pistas de depuração e preferências do projeto
- Routines e
/loop permitem executar sessões do Claude Code automaticamente por cron, webhook do GitHub ou gatilhos de API
- Memória é tratada como elemento fundamental da próxima etapa após MCP, Claude Code, Agent SDK e Skills
- A memória dos Claude Managed Agents é organizada como um sistema de arquivos, permitindo que o Claude a organize e atualize diretamente com Bash e Grep
- O Opus 4.7 decide melhor o que armazenar, como dividir arquivos e como manter a estrutura da memória
- É possível separar memória organizacional somente leitura e memória de trabalho com leitura e escrita para que vários agentes leiam e escrevam no mesmo repositório de memória
- Para evitar sobrescritas mesmo quando centenas de agentes alteram a memória ao mesmo tempo, é usado controle de concorrência otimista baseado em hash de conteúdo
- Histórico de mudanças, autor, sessão e momento são registrados para que a memória seja gerenciável com auditoria em ambientes corporativos
- Dreaming analisa de forma assíncrona sessões recentes de agentes e transcripts para identificar e organizar erros recorrentes, estratégias bem-sucedidas, memória duplicada e memória desatualizada
- A Harvey aplicou Dreaming a benchmarks jurídicos e aumentou em 6 vezes a taxa de conclusão de tarefas em um cenário legal
- Em uma demonstração de SRE, o Dreaming encontrou um padrão de nova tentativa a cada 60 segundos que vários agentes, isoladamente, não percebiam, e refletiu isso na memória
- O objetivo é uma estrutura de aprendizado contínuo em que o trabalho dos agentes de hoje automaticamente melhore os agentes de amanhã
- Na escala do GitHub Copilot, o cache de prompt se torna um meio central para reduzir custo e latência
- A taxa de acerto de cache desejada é de 94-96%, e algo em torno de 70% é visto como sinal de problema na montagem do prompt ou no desenho do cache
- O prompt de sistema e a parte inicial da lista de ferramentas devem permanecer o mais estáticos possível
- Se UUID, timestamp e carregamento dinâmico de ferramentas entrarem logo no início, o cache quebra com facilidade
- Mesmo em um harness que alterna entre vários modelos, é preciso manter compatibilidade com cache para que chamadas ao Opus reutilizem caches anteriores
- O GitHub trabalha novos modelos na sequência benchmark offline, uso interno, teste A/B, avaliação online (eval) e otimização pós-lançamento
- A estratégia de advisor é uma estrutura em que um modelo de execução barato faz a maior parte do trabalho, e o Opus só é chamado como conselheiro quando é necessário um julgamento importante
- Mais do que o modelo em si, a camada operacional que reúne prompt, ferramentas, cache, seleção de modelo, avaliação e feedback online define qualidade e custo
- O código auxiliar que antes era feito manualmente agora está sendo incorporado ao modelo e à API
- No uso de ferramentas, o valor de roteadores manuais ou decorators de retry está diminuindo
- O Claude pode encontrar ferramentas por conta própria, observar uma chamada de ferramenta que falhou, se recuperar e chamá-la novamente
- Nas instruções de ferramentas, vale a pena descrever não só a entrada, mas também o schema de saída
- Quando a estrutura de saída é conhecida antecipadamente, o Claude consegue usar melhor o resultado sem chamadas de ida e volta desnecessárias
- Os hooks de ferramenta pré/pós do Claude Code podem ser usados para bloquear certas chamadas ou registrar e analisar resultados automaticamente
- Com contexto de 1 milhão de tokens, compressão no lado do servidor e edição de contexto, o gerenciamento de contexto em tarefas longas fica mais simples
- Screenshots antigos, resultados de busca e resultados de leitura de arquivos podem ser removidos periodicamente, mantendo ainda assim as conclusões geradas por eles
- O Opus 4.7 pode retornar coordenadas de pixel 1:1 em screenshots na resolução original de até 1440p, reduzindo a necessidade de correção de coordenadas na automação de tela
- O código criado para compensar limitações do modelo dura pouco; o código que conecta ferramentas, dados, autenticação e contexto de domínio que o Claude não consegue ver tende a permanecer por muito mais tempo
- Claude Managed Agents reúne em uma plataforma a gestão de contexto, gestão de credenciais, segurança, controle de acesso, revisão humana e observabilidade necessárias para agentes operacionais de longa duração
- A configuração básica é composta por agent configuration, environment e session
- Nos session events, é possível ver eventos do usuário, do agente, da sessão e de intervalos
- O Console reúne em uma só tela configurações, ambiente, rastreamento completo de execução (trace), gargalos e ações recomendadas
- outcomes é um recurso que faz o Claude repetir até satisfazer critérios de término e critérios de avaliação definidos previamente
- Coordenação de múltiplos agentes, memória e Dreaming também aparecem juntos como recursos avançados
- Na demonstração do dashboard, o agente encontrou paralelização, fast mode e otimização de prompt para reduzir o tempo de renderização de cerca de 37 segundos para 10 segundos
- Agentes operacionais não precisam apenas de um loop de chamadas ao modelo, mas também de rastreamento, análise de gargalos, permissões e validação
- A Anthropic ficou com falta de recursos computacionais por causa de um crescimento de uso e receita mais rápido do que o esperado
- A empresa quer garantir capacidade computacional adicional para entregar mais a desenvolvedores e usuários
- Desenvolvedores são tratados como usuários centrais do Claude e como o grupo que primeiro mostra como a IA se espalha pela economia como um todo
- A próxima mudança do Claude Code é sair da produtividade individual para a produtividade de equipes e organizações
- Quanto mais rápida fica a escrita de código, mais segurança, validação, confiabilidade e manutenção se tornam os novos gargalos
- Como a capacidade dos modelos muda rapidamente, produtos que eram impossíveis alguns meses atrás de repente se tornam viáveis
- O mercado de APIs continuará importante
- No futuro, o Claude vai além de ajudar o trabalho de uma pessoa e passa a ampliar o trabalho de várias pessoas e vários agentes em toda a organização
- O Robobun do Bun reproduz automaticamente issues do GitHub e cria PRs com testes incluídos
- A condição de falhar na versão anterior e passar no branch com a correção é usada como critério para enviar o PR
CLAUDE.md se torna um documento operacional do agente com comandos de build, comandos de teste, localização dos testes, padrões de falhas anteriores, estrutura de pastas e como ler logs de CI
- CodeRabbit, Claude Code Review e Robobun são usados juntos para automatizar estilo, conformidade com
CLAUDE.md e revisão de condições de borda fora do diff
- Claude Code e Opus 4.7 combinam bem com trabalhos que elevam gradualmente o desempenho quando objetivo, forma de medição e ciclos de validação estão claros
- O gargalo sai da escrita de código e vai para planejamento e validação
- PRs criados por agentes podem ser tratados não como resultados que necessariamente precisam ser mesclados, mas como propostas passíveis de revisão
- Mesmo com o aumento de PRs de agentes, o critério humano para merge não diminui e pode até ficar mais alto
- Os AI teammates da Asana têm como objetivo agentes que trabalhem dentro da empresa como colegas de verdade
- O agente se torna um actor para lidar com aprovações, workflows e tarefas de várias etapas junto com pessoas
- Em muitas empresas, o uso de agentes ainda fica em fluxos de usuário único, nos quais uma pessoa recebe o resultado e o passa para a próxima
- A Asana busca fluxos de trabalho colaborativos em que várias pessoas interagem com o mesmo agente e conhecimento e memória se acumulam
- O Asana work graph conecta objetivos, portfólios, projetos, tarefas, aprovações e decisões passadas para ser usado como contexto do agente
- O AI teammate entra nos sistemas como um colega humano, com configuração compartilhada, controle de acesso baseado em papéis e auditabilidade
- Claude Managed Agents cuida de tarefas de várias etapas, como redigir um briefing de campanha e gerar mockups de landing pages em HTML
- A Asana se concentra em interface humana, contexto corporativo, segurança e auditabilidade, enquanto Claude Managed Agents assume ciclos de validação, avaliadores, outcomes e execução de múltiplos agentes
- Mais de 21 AI teammates pré-construídos são oferecidos para atividades de PMO, marketing, TI, RH e P&D
- O feedback fica na memória do agente para que o próximo usuário não repita o mesmo erro
- Em uma organização de engenharia AI-native, a vazão de escrita de código deixa de ser o gargalo mais caro
- Validação, review, segurança, manutenção e coordenação entre funções crescem como novos gargalos
- Em vez de um roadmap de 6 meses ou documentos de design para todo trabalho antes de começar, o fluxo do time do Claude Code favorece planejar no momento certo e prototipar rapidamente
- Debates técnicos mudam de longas discussões em whiteboard para a criação de vários PRs de implementação a fim de comparar impacto real e formato de API
- Como gerar código ficou mais fácil, testes, automação e validação mais cedo se tornam ainda mais importantes
- Mais importante do que perguntar "quem escreveu este código" é distinguir a causa de regressões, a necessidade de respostas de especialistas e o objetivo de obter contexto
- O time do Claude Code delega ao Claude estilo, lint, feedback de PR, algumas correções de bugs e adição de testes
- Revisão jurídica, código sensível à segurança, limites de confiança e senso de produto continuam sob responsabilidade de especialistas humanos
- Na contratação, a prioridade vai menos para vazão pura e mais para builders criativos com senso de produto e profunda especialização em sistemas
- Indicadores de sucesso podem incluir redução do tempo de onboarding, redução do ciclo de PR e aumento de commits com ajuda do Claude
- A Gamma fortalece fluxos de edição baseados em agentes ao refletir rapidamente no produto melhorias em chamadas de ferramentas e coordenação de agentes
- A Gamma usa o MCP connector não só como integração, mas também como canal de aquisição de clientes e ponto de entrada para workflows
- A Cognition reduziu parte de seus próprios sistemas de planejamento e memória à medida que os modelos ficaram melhores em editar código, usar o sistema de arquivos e executar planos de longa duração
- A Harvey redesenha a estrutura do produto a cada ponto de inflexão em foundation models, modelos de raciocínio e agentes de codificação
- As capacidades atuais de plataforma da Harvey dificilmente teriam sido obtidas sem uma arquitetura agent-native
- Produtos AI-native precisam partir do princípio de que a estrutura existente pode ficar obsoleta em 6 a 12 meses
- Registros, observabilidade, replay e avaliação tornam-se mecanismos essenciais para responder a mudanças rápidas de arquitetura
- Em áreas sensíveis como o direito, são necessários limites rígidos de dados entre dados públicos, dados privados, memória e fluxos de agentes
- Mais importante do que uma arquitetura ajustada aos limites de um modelo específico é uma arquitetura capaz de absorver rapidamente o próximo salto de capacidade
- A Vercel vê a infraestrutura agentiva como direção central
- A nuvem pode evoluir para uma infraestrutura que se recupera sozinha, se otimiza e altera suas próprias configurações
- O AI Gateway é tratado como uma CDN para tokens
- Ele se torna uma camada responsável por lidar com vários provedores e modelos, além de roteamento, resposta a falhas e controle de custos
- Os tokens do Opus representam uma fatia de gastos muito maior do que sua fatia de uso, então é preciso enxergar com clareza a estrutura de custos ao colocar modelos de alta inteligência no produto
- Após a adoção do Opus 4.5, o V0 conseguiu simplificar verificação gramatical, correção automática e alguns fluxos de processamento que antes ajustavam o modelo anterior
- O salto na capacidade do modelo leva não só à adição de novos recursos, mas também a mudanças que removem código de ajuste já existente
- Depois da expansão do uso de Opus no V0, o gasto com créditos do produto dobrou
- Daqui para frente, além do desenvolvimento via CLI e UI, agentes assíncronos e com menos supervisão humana podem crescer ainda mais
- A computação em tempo de teste (test-time compute) é o eixo em que o Claude usa mais tokens e mais tempo durante o raciocínio para resolver problemas difíceis
- O mesmo Opus 4.7 também apresenta grande diferença na qualidade da simulação de tráfego conforme o effort low, high ou max
- Quanto mais tempo e tokens são usados, mais realistas ficam os gráficos, o fluxo do trânsito e o movimento dos veículos
- Os tokens usados pelo Claude se dividem em tokens de raciocínio, tokens de chamada de ferramentas e tokens de texto
- Os tokens de raciocínio são usados para inferência interna, os de chamada de ferramentas para interação com o mundo externo, e os de texto para se comunicar com o usuário
- effort é um controle que expressa o equilíbrio entre tempo, custo e qualidade
- Task Budgets permitem definir limites máximos de tokens, tempo e custo que o Claude pode usar em uma tarefa específica
- O raciocínio adaptativo (adaptive thinking) permite que o Claude escolha livremente a ordem de pensar, usar ferramentas e responder ao usuário no momento necessário
- Em casos de uso de coding e agentic, extra high é tratado como um bom valor padrão
- Para classificação ou extração simples em grande volume, modelos menores são vantajosos, e para concluir rápido tarefas que exigem inteligência, um effort baixo em um modelo grande pode ser melhor
- Cerca de 90% dos engenheiros da Datadog usam ferramentas de codificação com IA em código de produção
- Entre eles, pelo menos 2/3 usam o Claude Code
- O escopo de uso das ferramentas de codificação com IA está se ampliando de funções individuais, testes e código de integração para trabalhos em nível de sistema
- O gargalo saiu da escrita de código e foi para a iteração de feedback e a validação em produção
- No experimento Helix, o Claude Code conseguiu criar em poucos dias um serviço de streaming semelhante ao Kafka
- Para levar isso a um ambiente de produção, são necessários shadowing, uma escada de validação e quilometragem de sistema
- O Tempor faz com que o agente primeiro crie um blueprint com estado, transições, efeitos e invariantes, em vez de improvisar ferramentas na hora
- Tabelas de transição, documentos de política, efeitos tipados, validadores e testes de propriedade tornam inspecionável o software criado pelo agente
- Para dar liberdade ao agente, é preciso tornar legíveis por máquina os invariantes e os procedimentos de validação dos sistemas de produção
- No Google Cloud, a forma mais fácil de configurar o Claude Code é com o assistente de configuração baseado em Application Default Credentials
- O assistente de configuração consegue detectar e fixar project, region e model disponíveis
- Ao usar modelos Claude no Google Cloud, é possível aproveitar cobrança por token, provisioned throughput, menos necessidade de trocar API keys, aplicação de políticas de project, manutenção dos dados dentro do project e endpoints regionais/globais
- A demo mostra o fluxo em que cinco papéis — PM, UI/UX designer, software engineer, security engineer e data/growth marketer — levam até o fim a criação de um único app de feedback
- O PM coloca um wireframe desenhado à mão no Claude Code para criar rapidamente um protótipo
- Na etapa de UI/UX, usa-se o plan mode para fazer o Claude apresentar primeiro um plano antes da implementação
- A Google Cloud developer knowledge API e o MCP server conectam documentação atualizada e orientações de arquitetura ao Claude Code
- As Google Cloud Skills são usadas para ajudar na implementação de blocos individuais, como deploy de API no Cloud Run e integração entre Cloud Run e Firestore
- Com sub-agents, a implementação de API, pipeline de ingestão e dashboard avança em paralelo
- O security review prompt verifica problemas de OWASP ou permissões de service account, corrige os problemas encontrados e depois faz o deploy no Cloud Run
- As prioridades para otimizar agentes de produção são prompt caching, engenharia de contexto (context engineering) e a estratégia Advisor
- O prompt caching reduz o custo de tokens de entrada, diminui o tempo até o primeiro token e alivia o peso do limite de uso dos tokens em cache
- A taxa de acerto de cache na casa dos 90% é tratada como meta
- A estabilidade da parte inicial do prompt, a posição das definições de ferramentas e o local de inserção de valores dinâmicos afetam o cache
- A tool search tool carrega só as definições de ferramentas necessárias no momento certo, economizando contexto
- Colocar todas as ferramentas desde o início pesa tanto no contexto quanto no cache
- A programmatic tool calling seleciona apenas os trechos necessários para inserir no contexto, em vez de colocar integralmente muitos resultados de ferramentas
- A compaction reduz conversas antigas e resultados de ferramentas para permitir a continuidade de trabalhos longos
- Na estratégia Advisor, Sonnet ou Haiku fazem a maior parte do trabalho, e o Opus é chamado como conselheiro apenas quando é preciso uma decisão importante
- O ponto central não é chamar mais vezes o modelo, mas projetar com que contexto, ferramentas e estrutura de cache o modelo vai trabalhar
- Os usuários do Replit Agent esperam que apps funcionais sejam criados apenas com linguagem natural, sem especificar framework nem teste
- É difícil medir a qualidade do Replit Agent apenas vendo se um patch passa nos testes, como em benchmarks gerais de coding
- A avaliação precisa verificar se o app funciona do jeito que o usuário pediu
- A Replit usa avaliação offline e avaliação online em conjunto
- A avaliação offline funciona como etapa de aprovação antes de um novo release do agente, e a avaliação online serve para responder rapidamente após o uso real
- O VibeBench é um benchmark público em que 20 PRDs reais são usados como entrada para criar apps a partir de um repositório vazio, e um avaliador automático testa os apps no navegador
- A maioria dos modelos tem mais dificuldade quando precisa expandir novamente código que ela mesma criou
- É preciso colocar etapas de teste e validação entre os recursos para reduzir o acúmulo contínuo sobre uma base instável
- O Telescope é um sistema interno que agrupa semanticamente rastros de execução em produção para encontrar falhas de cauda longa, classificar problemas, fazer o agente criar PRs e validar com VibeBench ou testes A/B
- A avaliação deixa de ser uma checklist final de lançamento e se torna um motor para melhorar o agente todos os dias
- Usuários do Claude Code fazem deploy mais rápido com mais confiança do que no ano passado
- Na votação com os participantes durante a apresentação, muitos responderam que percebem ganhos de velocidade de 10x, 5x e 2x com o Claude
- No SWE-bench Verified, o Sonnet 3.7 registrou cerca de 62% e o Opus 4.7, 87%
- O Opus 4.7 tem mais de 3 vezes mais chance de conseguir resolver PRs difíceis em que o Sonnet 3.7 falhava
- Em uma demo para recriar o Claude.ai com o mesmo prompt, modelos anteriores geraram uma UI de chat genérica e erros, enquanto o Opus 4.7 implementou as cores do Claude, respostas da API, histórico de chat, gráficos inline e dark mode
- As áreas que melhoraram foram planejamento, recuperação de erros e manutenção da atenção durante execuções longas
- O novo modelo primeiro faz um plano, volta atrás quando falha e mantém melhor o prompt de sistema e os objetivos mesmo em contextos longos
- É preciso criar avaliações com distribuições mais próximas do produto para enxergar melhorias reais
- À medida que os modelos melhoram, avaliações existentes saturam facilmente, então as avaliações também precisam ficar cada vez mais difíceis
- Quando surge um novo frontier model, vale revisar e tentar reduzir novamente os procedimentos de calibração e os prompts existentes
- A Cursor entende que o gargalo não está na inteligência do modelo, mas no fato de as pessoas não conseguirem dar ao modelo ferramentas suficientes, contexto suficiente e objetivos amplos o bastante
- Assim como se faz onboarding de desenvolvedores humanos, agentes também precisam receber um computador, ambiente de desenvolvimento e documentação
- O onboarding agent da Cursor explora o repositório e identifica como rodar o app, quais serviços existem, variáveis de ambiente e permissões
- O AnyDev CLI é uma ferramenta que ajuda o agente a iniciar serviços, esperar que fiquem prontos, verificar o estado e até criar contas de teste ou fazer login
- Quanto melhor o ambiente de desenvolvimento dos agentes, mais os desenvolvedores executam cloud agents e delegam tarefas maiores
- O princípio básico da autonomia é dar aos agentes olhos, ferramentas e bom contexto
- Os agentes precisam conseguir ver o estado do app, conversas de outros agentes e o estado dos serviços, como uma pessoa veria
- A Cursor vê computer use como o próximo bloco fundamental importante depois de coding
- O Claude 4.7 permite que o agent grave demos end-to-end por conta própria para validar funcionalidades, ajudando pessoas a entender rapidamente o resultado antes do code review
- A Cursor trata a agent experience como um alvo de design separado e, quando um agente encontra um fluxo irritante, quebrado ou confuso, isso vira um issue de
work on the factory
- O objetivo final não é fazer uma pessoa conduzir manualmente de A até D, mas criar um sistema capaz de resolver de A a Z
Ainda não há comentários.