Tudo o que foi anunciado no Code w/ Claude

xguru · 2026-05-14T11:50:02+09:00

Conferência para desenvolvedores da Anthropic: realizada online e presencialmente, com eventos presenciais em São Francisco em 6/5, Londres em 19/5 e Tóquio em 10/6. No evento de São Francisco, foram divulgados vídeos de 19 sessões O Claude está evoluindo na direção de executar tarefas mais longas, memória de longo prazo, uso de mais ferramentas e melhor verificação A mudança central é que execução iterativa, seleção de ferramentas, verificação, memória e gerenciamento de contexto, antes feitos diretamente pelos desenvolvedores, estão sendo incorporados aos produtos e à plataforma do Claude A diferenciação entre produtos e organizações está migrando de como o modelo é chamado para quais ferramentas, dados, permissões e contexto são disponibilizados ao modelo Mais do que a escrita de código em si, verificação, segurança, gestão de permissões, observabilidade, sistema de avaliação e operação organizacional estão se tornando os novos gargalos As áreas importantes daqui para frente são ferramentas personalizadas, memória confiável, avaliação, fronteiras de segurança, engenharia de contexto (context engineering) e ambiente de trabalho para agentes (agent experience) Sessão 1 - Keynote O foco está em melhorias de produto para fazer Claude Code e Claude Platform funcionarem melhor para desenvolvedores A maioria dos usuários usa o Claude dentro de produtos criados por desenvolvedores, em vez de usar diretamente a API do Claude ou o terminal O uso da API da Claude Platform cresceu quase 17 vezes em relação ao ano anterior O desenvolvedor médio do Claude Code executa o Claude por 20 horas por semana O limite de uso de 5 horas do Claude Code foi dobrado nos planos Pro, Max, Team e Enterprise baseado em assentos O limite da API do Claude Opus também aumentou bastante A empresa quer usar a capacidade do data center Colossus One da SpaceX para oferecer mais recursos computacionais a desenvolvedores individuais e pequenas equipes O Opus 4.7 melhora desempenho de agentes de codificação, qualidade de planejamento e taxa de resolução de tarefas reais de engenharia na Amp, Rakuten e Intuit O Claude do futuro caminha para melhor capacidade de julgamento, contexto e memória maiores, e colaboração entre vários agentes Sessão 2 - What's new in Claude Code Os novos recursos do Claude Code se organizam em dois eixos: usabilidade para desenvolvedores e mais autonomia Remote Control permite retomar na web ou no celular uma sessão iniciada no terminal A interface de terminal em tela cheia usa scrollback virtual para oferecer renderização sem cintilação e uma tela de chamadas de ferramentas clicável A GUI do Claude Code mudou para permitir gerenciar várias sessões com fixação, filtros, agrupamento e tela dividida Nas views de plano, diff e arquivos, é possível deixar comentários por linha para que o Claude os reúna e processe depois O Auto Mode classifica se uma chamada de ferramenta é destrutiva ou se parece com prompt injection e, se for segura, executa sem pedir confirmação de permissão O worktree permite que várias sessões do Claude trabalhem em paralelo, cada uma em seu branch isolado e com sua própria cópia dos arquivos A memória automática (auto memory) faz o Claude gerenciar o memory.md por projeto e arquivos relacionados, reutilizando em sessões futuras comandos de build, pistas de depuração e preferências do projeto Routines e /loop permitem executar sessões do Claude Code automaticamente por cron, webhook do GitHub ou gatilhos de API Sessão 3 - Memory and dreaming for self-learning agents Memória é tratada como elemento fundamental da próxima etapa após MCP, Claude Code, Agent SDK e Skills A memória dos Claude Managed Agents é organizada como um sistema de arquivos, permitindo que o Claude a organize e atualize diretamente com Bash e Grep O Opus 4.7 decide melhor o que armazenar, como dividir arquivos e como manter a estrutura da memória É possível separar memória organizacional somente leitura e memória de trabalho com leitura e escrita para que vários agentes leiam e escrevam no mesmo repositório de memória Para evitar sobrescritas mesmo quando centenas de agentes alteram a memória ao mesmo tempo, é usado controle de concorrência otimista baseado em hash de conteúdo Histórico de mudanças, autor, sessão e momento são registrados para que a memória seja gerenciável com auditoria em ambientes corporativos Dreaming analisa de forma assíncrona sessões recentes de agentes e transcripts para identificar e organizar erros recorrentes, estratégias bem-sucedidas, memória duplicada e memória desatualizada A Harvey aplicou Dreaming a benchmarks jurídicos e aumentou em 6 vezes a taxa de conclusão de tarefas em um cenário legal Em uma demonstração de SRE, o Dreaming encontrou um padrão de nova tentativa a cada 60 segundos que vários agentes, isoladamente, não percebiam, e refletiu isso na memória O objetivo é uma estrutura de aprendizado contínuo em que o trabalho dos agentes de hoje automaticamente melhore os agentes de amanhã Sessão 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale Na escala do GitHub Copilot, o cache de prompt se torna um meio central para reduzir custo e latência A taxa de acerto de cache desejada é de 94-96%, e algo em torno de 70% é visto como sinal de problema na montagem do prompt ou no desenho do cache O prompt de sistema e a parte inicial da lista de ferramentas devem permanecer o mais estáticos possível Se UUID, timestamp e carregamento dinâmico de ferramentas entrarem logo no início, o cache quebra com facilidade Mesmo em um harness que alterna entre vários modelos, é preciso manter compatibilidade com cache para que chamadas ao Opus reutilizem caches anteriores O GitHub trabalha novos modelos na sequência benchmark offline, uso interno, teste A/B, avaliação online (eval) e otimização pós-lançamento A estratégia de advisor é uma estrutura em que um modelo de execução barato faz a maior parte do trabalho, e o Opus só é chamado como conselheiro quando é necessário um julgamento importante Mais do que o modelo em si, a camada operacional que reúne prompt, ferramentas, cache, seleção de modelo, avaliação e feedback online define qualidade e custo Sessão 5 - The expanding toolkit O código auxiliar que antes era feito manualmente agora está sendo incorporado ao modelo e à API No uso de ferramentas, o valor de roteadores manuais ou decorators de retry está diminuindo O Claude pode encontrar ferramentas por conta própria, observar uma chamada de ferramenta que falhou, se recuperar e chamá-la novamente Nas instruções de ferramentas, vale a pena descrever não só a entrada, mas também o schema de saída Quando a estrutura de saída é conhecida antecipadamente, o Claude consegue usar melhor o resultado sem chamadas de ida e volta desnecessárias Os hooks de ferramenta pré/pós do Claude Code podem ser usados para bloquear certas chamadas ou registrar e analisar resultados automaticamente Com contexto de 1 milhão de tokens, compressão no lado do servidor e edição de contexto, o gerenciamento de contexto em tarefas longas fica mais simples Screenshots antigos, resultados de busca e resultados de leitura de arquivos podem ser removidos periodicamente, mantendo ainda assim as conclusões geradas por eles O Opus 4.7 pode retornar coordenadas de pixel 1:1 em screenshots na resolução original de até 1440p, reduzindo a necessidade de correção de coordenadas na automação de tela O código criado para compensar limitações do modelo dura pouco; o código que conecta ferramentas, dados, autenticação e contexto de domínio que o Claude não consegue ver tende a permanecer por muito mais tempo Sessão 6 - How to get to production faster with Claude Managed Agents Claude Managed Agents reúne em uma plataforma a gestão de contexto, gestão de credenciais, segurança, controle de acesso, revisão humana e observabilidade necessárias para agentes operacionais de longa duração A configuração básica é composta por agent configuration, environment e session Nos session events, é possível ver eventos do usuário, do agente, da sessão e de intervalos O Console reúne em uma só tela configurações, ambiente, rastreamento completo de execução (trace), gargalos e ações recomendadas outcomes é um recurso que faz o Claude repetir até satisfazer critérios de término e critérios de avaliação definidos previamente Coordenação de múltiplos agentes, memória e Dreaming também aparecem juntos como recursos avançados Na demonstração do dashboard, o agente encontrou paralelização, fast mode e otimização de prompt para reduzir o tempo de renderização de cerca de 37 segundos para 10 segundos Agentes operacionais não precisam apenas de um loop de chamadas ao modelo, mas também de rastreamento, análise de gargalos, permissões e validação Sessão 7 - A conversation with Dario Amodei & Daniela Amodei A Anthropic ficou com falta de recursos computacionais por causa de um crescimento de uso e receita mais rápido do que o esperado A empresa quer garantir capacidade computacional adicional para entregar mais a desenvolvedores e usuários Desenvolvedores são tratados como usuários centrais do Claude e como o grupo que primeiro mostra como a IA se espalha pela economia como um todo A próxima mudança do Claude Code é sair da produtividade individual para a produtividade de equipes e organizações Quanto mais rápida fica a escrita de código, mais segurança, validação, confiabilidade e manutenção se tornam os novos gargalos Como a capacidade dos modelos muda rapidamente, produtos que eram impossíveis alguns meses atrás de repente se tornam viáveis O mercado de APIs continuará importante No futuro, o Claude vai além de ajudar o trabalho de uma pessoa e passa a ampliar o trabalho de várias pessoas e vários agentes em toda a organização Sessão 8 - Live coding session with Boris Cherny and Jarred Sumner O Robobun do Bun reproduz automaticamente issues do GitHub e cria PRs com testes incluídos A condição de falhar na versão anterior e passar no branch com a correção é usada como critério para enviar o PR CLAUDE.md se torna um documento operacional do agente com comandos de build, comandos de teste, localização dos testes, padrões de falhas anteriores, estrutura de pastas e como ler logs de CI CodeRabbit, Claude Code Review e Robobun são usados juntos para automatizar estilo, conformidade com CLAUDE.md e revisão de condições de borda fora do diff Claude Code e Opus 4.7 combinam bem com trabalhos que elevam gradualmente o desempenho quando objetivo, forma de medição e ciclos de validação estão claros O gargalo sai da escrita de código e vai para planejamento e validação PRs criados por agentes podem ser tratados não como resultados que necessariamente precisam ser mesclados, mas como propostas passíveis de revisão Mesmo com o aumento de PRs de agentes, o critério humano para merge não diminui e pode até ficar mais alto Sessão 9 - Building with Claude Managed Agents and Asana AI teammates Os AI teammates da Asana têm como objetivo agentes que trabalhem dentro da empresa como colegas de verdade O agente se torna um actor para lidar com aprovações, workflows e tarefas de várias etapas junto com pessoas Em muitas empresas, o uso de agentes ainda fica em fluxos de usuário único, nos quais uma pessoa recebe o resultado e o passa para a próxima A Asana busca fluxos de trabalho colaborativos em que várias pessoas interagem com o mesmo agente e conhecimento e memória se acumulam O Asana work graph conecta objetivos, portfólios, projetos, tarefas, aprovações e decisões passadas para ser usado como contexto do agente O AI teammate entra nos sistemas como um colega humano, com configuração compartilhada, controle de acesso baseado em papéis e auditabilidade Claude Managed Agents cuida de tarefas de várias etapas, como redigir um briefing de campanha e gerar mockups de landing pages em HTML A Asana se concentra em interface humana, contexto corporativo, segurança e auditabilidade, enquanto Claude Managed Agents assume ciclos de validação, avaliadores, outcomes e execução de múltiplos agentes Mais de 21 AI teammates pré-construídos são oferecidos para atividades de PMO, marketing, TI, RH e P&D O feedback fica na memória do agente para que o próximo usuário não repita o mesmo erro Sessão 10 - Running an AI-native engineering org Em uma organização de engenharia AI-native, a vazão de escrita de código deixa de ser o gargalo mais caro Validação, review, segurança, manutenção e coordenação entre funções crescem como novos gargalos Em vez de um roadmap de 6 meses ou documentos de design para todo trabalho antes de começar, o fluxo do time do Claude Code favorece planejar no momento certo e prototipar rapidamente Debates técnicos mudam de longas discussões em whiteboard para a criação de vários PRs de implementação a fim de comparar impacto real e formato de API Como gerar código ficou mais fácil, testes, automação e validação mais cedo se tornam ainda mais importantes Mais importante do que perguntar "quem escreveu este código" é distinguir a causa de regressões, a necessidade de respostas de especialistas e o objetivo de obter contexto O time do Claude Code delega ao Claude estilo, lint, feedback de PR, algumas correções de bugs e adição de testes Revisão jurídica, código sensível à segurança, limites de confiança e senso de produto continuam sob responsabilidade de especialistas humanos Na contratação, a prioridade vai menos para vazão pura e mais para builders criativos com senso de produto e profunda especialização em sistemas Indicadores de sucesso podem incluir redução do tempo de onboarding, redução do ciclo de PR e aumento de commits com ajuda do Claude Sessão 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey A Gamma fortalece fluxos de edição baseados em agentes ao refletir rapidamente no produto melhorias em chamadas de ferramentas e coordenação de agentes A Gamma usa o MCP connector não só como integração, mas também como canal de aquisição de clientes e ponto de entrada para workflows A Cognition reduziu parte de seus próprios sistemas de planejamento e memória à medida que os modelos ficaram melhores em editar código, usar o sistema de arquivos e executar planos de longa duração A Harvey redesenha a estrutura do produto a cada ponto de inflexão em foundation models, modelos de raciocínio e agentes de codificação As capacidades atuais de plataforma da Harvey dificilmente teriam sido obtidas sem uma arquitetura agent-native Produtos AI-native precisam partir do princípio de que a estrutura existente pode ficar obsoleta em 6 a 12 meses Registros, observabilidade, replay e avaliação tornam-se mecanismos essenciais para responder a mudanças rápidas de arquitetura Em áreas sensíveis como o direito, são necessários limites rígidos de dados entre dados públicos, dados privados, memória e fluxos de agentes Mais importante do que uma arquitetura ajustada aos limites de um modelo específico é uma arquitetura capaz de absorver rapidamente o próximo salto de capacidade Sessão 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch A Vercel vê a infraestrutura agentiva como direção central A nuvem pode evoluir para uma infraestrutura que se recupera sozinha, se otimiza e altera suas próprias configurações O AI Gateway é tratado como uma CDN para tokens Ele se torna uma camada responsável por lidar com vários provedores e modelos, além de roteamento, resposta a falhas e controle de custos Os tokens do Opus representam uma fatia de gastos muito maior do que sua fatia de uso, então é preciso enxergar com clareza a estrutura de custos ao colocar modelos de alta inteligência no produto Após a adoção do Opus 4.5, o V0 conseguiu simplificar verificação gramatical, correção automática e alguns fluxos de processamento que antes ajustavam o modelo anterior O salto na capacidade do modelo leva não só à adição de novos recursos, mas também a mudanças que removem código de ajuste já existente Depois da expansão do uso de Opus no V0, o gasto com créditos do produto dobrou Daqui para frente, além do desenvolvimento via CLI e UI, agentes assíncronos e com menos supervisão humana podem crescer ainda mais Sessão 13 - The thinking lever A computação em tempo de teste (test-time compute) é o eixo em que o Claude usa mais tokens e mais tempo durante o raciocínio para resolver problemas difíceis O mesmo Opus 4.7 também apresenta grande diferença na qualidade da simulação de tráfego conforme o effort low, high ou max Quanto mais tempo e tokens são usados, mais realistas ficam os gráficos, o fluxo do trânsito e o movimento dos veículos Os tokens usados pelo Claude se dividem em tokens de raciocínio, tokens de chamada de ferramentas e tokens de texto Os tokens de raciocínio são usados para inferência interna, os de chamada de ferramentas para interação com o mundo externo, e os de texto para se comunicar com o usuário effort é um controle que expressa o equilíbrio entre tempo, custo e qualidade Task Budgets permitem definir limites máximos de tokens, tempo e custo que o Claude pode usar em uma tarefa específica O raciocínio adaptativo (adaptive thinking) permite que o Claude escolha livremente a ordem de pensar, usar ferramentas e responder ao usuário no momento necessário Em casos de uso de coding e agentic, extra high é tratado como um bom valor padrão Para classificação ou extração simples em grande volume, modelos menores são vantajosos, e para concluir rápido tarefas que exigem inteligência, um effort baixo em um modelo grande pode ser melhor Sessão 14 - How Datadog built a universal machine tool for Claude Code Cerca de 90% dos engenheiros da Datadog usam ferramentas de codificação com IA em código de produção Entre eles, pelo menos 2/3 usam o Claude Code O escopo de uso das ferramentas de codificação com IA está se ampliando de funções individuais, testes e código de integração para trabalhos em nível de sistema O gargalo saiu da escrita de código e foi para a iteração de feedback e a validação em produção No experimento Helix, o Claude Code conseguiu criar em poucos dias um serviço de streaming semelhante ao Kafka Para levar isso a um ambiente de produção, são necessários shadowing, uma escada de validação e quilometragem de sistema O Tempor faz com que o agente primeiro crie um blueprint com estado, transições, efeitos e invariantes, em vez de improvisar ferramentas na hora Tabelas de transição, documentos de política, efeitos tipados, validadores e testes de propriedade tornam inspecionável o software criado pelo agente Para dar liberdade ao agente, é preciso tornar legíveis por máquina os invariantes e os procedimentos de validação dos sistemas de produção Sessão 15 - Building with Claude on Google Cloud No Google Cloud, a forma mais fácil de configurar o Claude Code é com o assistente de configuração baseado em Application Default Credentials O assistente de configuração consegue detectar e fixar project, region e model disponíveis Ao usar modelos Claude no Google Cloud, é possível aproveitar cobrança por token, provisioned throughput, menos necessidade de trocar API keys, aplicação de políticas de project, manutenção dos dados dentro do project e endpoints regionais/globais A demo mostra o fluxo em que cinco papéis — PM, UI/UX designer, software engineer, security engineer e data/growth marketer — levam até o fim a criação de um único app de feedback O PM coloca um wireframe desenhado à mão no Claude Code para criar rapidamente um protótipo Na etapa de UI/UX, usa-se o plan mode para fazer o Claude apresentar primeiro um plano antes da implementação A Google Cloud developer knowledge API e o MCP server conectam documentação atualizada e orientações de arquitetura ao Claude Code As Google Cloud Skills são usadas para ajudar na implementação de blocos individuais, como deploy de API no Cloud Run e integração entre Cloud Run e Firestore Com sub-agents, a implementação de API, pipeline de ingestão e dashboard avança em paralelo O security review prompt verifica problemas de OWASP ou permissões de service account, corrige os problemas encontrados e depois faz o deploy no Cloud Run Sessão 16 - Getting more out of the Claude Platform As prioridades para otimizar agentes de produção são prompt caching, engenharia de contexto (context engineering) e a estratégia Advisor O prompt caching reduz o custo de tokens de entrada, diminui o tempo até o primeiro token e alivia o peso do limite de uso dos tokens em cache A taxa de acerto de cache na casa dos 90% é tratada como meta A estabilidade da parte inicial do prompt, a posição das definições de ferramentas e o local de inserção de valores dinâmicos afetam o cache A tool search tool carrega só as definições de ferramentas necessárias no momento certo, economizando contexto Colocar todas as ferramentas desde o início pesa tanto no contexto quanto no cache A programmatic tool calling seleciona apenas os trechos necessários para inserir no contexto, em vez de colocar integralmente muitos resultados de ferramentas A compaction reduz conversas antigas e resultados de ferramentas para permitir a continuidade de trabalhos longos Na estratégia Advisor, Sonnet ou Haiku fazem a maior parte do trabalho, e o Opus é chamado como conselheiro apenas quando é preciso uma decisão importante O ponto central não é chamar mais vezes o modelo, mas projetar com que contexto, ferramentas e estrutura de cache o modelo vai trabalhar Sessão 17 - Evaluating and improving Replit Agent at scale Os usuários do Replit Agent esperam que apps funcionais sejam criados apenas com linguagem natural, sem especificar framework nem teste É difícil medir a qualidade do Replit Agent apenas vendo se um patch passa nos testes, como em benchmarks gerais de coding A avaliação precisa verificar se o app funciona do jeito que o usuário pediu A Replit usa avaliação offline e avaliação online em conjunto A avaliação offline funciona como etapa de aprovação antes de um novo release do agente, e a avaliação online serve para responder rapidamente após o uso real O VibeBench é um benchmark público em que 20 PRDs reais são usados como entrada para criar apps a partir de um repositório vazio, e um avaliador automático testa os apps no navegador A maioria dos modelos tem mais dificuldade quando precisa expandir novamente código que ela mesma criou É preciso colocar etapas de teste e validação entre os recursos para reduzir o acúmulo contínuo sobre uma base instável O Telescope é um sistema interno que agrupa semanticamente rastros de execução em produção para encontrar falhas de cauda longa, classificar problemas, fazer o agente criar PRs e validar com VibeBench ou testes A/B A avaliação deixa de ser uma checklist final de lançamento e se torna um motor para melhorar o agente todos os dias Sessão 18 - The capability curve Usuários do Claude Code fazem deploy mais rápido com mais confiança do que no ano passado Na votação com os participantes durante a apresentação, muitos responderam que percebem ganhos de velocidade de 10x, 5x e 2x com o Claude No SWE-bench Verified, o Sonnet 3.7 registrou cerca de 62% e o Opus 4.7, 87% O Opus 4.7 tem mais de 3 vezes mais chance de conseguir resolver PRs difíceis em que o Sonnet 3.7 falhava Em uma demo para recriar o Claude.ai com o mesmo prompt, modelos anteriores geraram uma UI de chat genérica e erros, enquanto o Opus 4.7 implementou as cores do Claude, respostas da API, histórico de chat, gráficos inline e dark mode As áreas que melhoraram foram planejamento, recuperação de erros e manutenção da atenção durante execuções longas O novo modelo primeiro faz um plano, volta atrás quando falha e mantém melhor o prompt de sistema e os objetivos mesmo em contextos longos É preciso criar avaliações com distribuições mais próximas do produto para enxergar melhorias reais À medida que os modelos melhoram, avaliações existentes saturam facilmente, então as avaliações também precisam ficar cada vez mais difíceis Quando surge um novo frontier model, vale revisar e tentar reduzir novamente os procedimentos de calibração e os prompts existentes Sessão 19 - Giving coding agents their own computers: How Cursor built cloud agents A Cursor entende que o gargalo não está na inteligência do modelo, mas no fato de as pessoas não conseguirem dar ao modelo ferramentas suficientes, contexto suficiente e objetivos amplos o bastante Assim como se faz onboarding de desenvolvedores humanos, agentes também precisam receber um computador, ambiente de desenvolvimento e documentação O onboarding agent da Cursor explora o repositório e identifica como rodar o app, quais serviços existem, variáveis de ambiente e permissões O AnyDev CLI é uma ferramenta que ajuda o agente a iniciar serviços, esperar que fiquem prontos, verificar o estado e até criar contas de teste ou fazer login Quanto melhor o ambiente de desenvolvimento dos agentes, mais os desenvolvedores executam cloud agents e delegam tarefas maiores O princípio básico da autonomia é dar aos agentes olhos, ferramentas e bom contexto Os agentes precisam conseguir ver o estado do app, conversas de outros agentes e o estado dos serviços, como uma pessoa veria A Cursor vê computer use como o próximo bloco fundamental importante depois de coding O Claude 4.7 permite que o agent grave demos end-to-end por conta própria para validar funcionalidades, ajudando pessoas a entender rapidamente o resultado antes do code review A Cursor trata a agent experience como um alvo de design separado e, quando um agente encontra um fluxo irritante, quebrado ou confuso, isso vira um issue de work on the factory O objetivo final não é fazer uma pessoa conduzir manualmente de A até D, mas criar um sistema capaz de resolver de A a Z

(claude.com)

9 pontos por xguru 5 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Conferência para desenvolvedores da Anthropic: realizada online e presencialmente, com eventos presenciais em São Francisco em 6/5, Londres em 19/5 e Tóquio em 10/6. No evento de São Francisco, foram divulgados vídeos de 19 sessões
O Claude está evoluindo na direção de executar tarefas mais longas, memória de longo prazo, uso de mais ferramentas e melhor verificação
A mudança central é que execução iterativa, seleção de ferramentas, verificação, memória e gerenciamento de contexto, antes feitos diretamente pelos desenvolvedores, estão sendo incorporados aos produtos e à plataforma do Claude
A diferenciação entre produtos e organizações está migrando de como o modelo é chamado para quais ferramentas, dados, permissões e contexto são disponibilizados ao modelo
Mais do que a escrita de código em si, verificação, segurança, gestão de permissões, observabilidade, sistema de avaliação e operação organizacional estão se tornando os novos gargalos
As áreas importantes daqui para frente são ferramentas personalizadas, memória confiável, avaliação, fronteiras de segurança, engenharia de contexto (context engineering) e ambiente de trabalho para agentes (agent experience)

Sessão 1 - Keynote

O foco está em melhorias de produto para fazer Claude Code e Claude Platform funcionarem melhor para desenvolvedores
A maioria dos usuários usa o Claude dentro de produtos criados por desenvolvedores, em vez de usar diretamente a API do Claude ou o terminal
O uso da API da Claude Platform cresceu quase 17 vezes em relação ao ano anterior
O desenvolvedor médio do Claude Code executa o Claude por 20 horas por semana
O limite de uso de 5 horas do Claude Code foi dobrado nos planos Pro, Max, Team e Enterprise baseado em assentos
O limite da API do Claude Opus também aumentou bastante
A empresa quer usar a capacidade do data center Colossus One da SpaceX para oferecer mais recursos computacionais a desenvolvedores individuais e pequenas equipes
O Opus 4.7 melhora desempenho de agentes de codificação, qualidade de planejamento e taxa de resolução de tarefas reais de engenharia na Amp, Rakuten e Intuit
O Claude do futuro caminha para melhor capacidade de julgamento, contexto e memória maiores, e colaboração entre vários agentes

Sessão 2 - What's new in Claude Code

Os novos recursos do Claude Code se organizam em dois eixos: usabilidade para desenvolvedores e mais autonomia
Remote Control permite retomar na web ou no celular uma sessão iniciada no terminal
A interface de terminal em tela cheia usa scrollback virtual para oferecer renderização sem cintilação e uma tela de chamadas de ferramentas clicável
A GUI do Claude Code mudou para permitir gerenciar várias sessões com fixação, filtros, agrupamento e tela dividida
Nas views de plano, diff e arquivos, é possível deixar comentários por linha para que o Claude os reúna e processe depois
O Auto Mode classifica se uma chamada de ferramenta é destrutiva ou se parece com prompt injection e, se for segura, executa sem pedir confirmação de permissão
O worktree permite que várias sessões do Claude trabalhem em paralelo, cada uma em seu branch isolado e com sua própria cópia dos arquivos
A memória automática (auto memory) faz o Claude gerenciar o memory.md por projeto e arquivos relacionados, reutilizando em sessões futuras comandos de build, pistas de depuração e preferências do projeto
Routines e /loop permitem executar sessões do Claude Code automaticamente por cron, webhook do GitHub ou gatilhos de API

Sessão 3 - Memory and dreaming for self-learning agents

Memória é tratada como elemento fundamental da próxima etapa após MCP, Claude Code, Agent SDK e Skills
A memória dos Claude Managed Agents é organizada como um sistema de arquivos, permitindo que o Claude a organize e atualize diretamente com Bash e Grep
O Opus 4.7 decide melhor o que armazenar, como dividir arquivos e como manter a estrutura da memória
É possível separar memória organizacional somente leitura e memória de trabalho com leitura e escrita para que vários agentes leiam e escrevam no mesmo repositório de memória
Para evitar sobrescritas mesmo quando centenas de agentes alteram a memória ao mesmo tempo, é usado controle de concorrência otimista baseado em hash de conteúdo
Histórico de mudanças, autor, sessão e momento são registrados para que a memória seja gerenciável com auditoria em ambientes corporativos
Dreaming analisa de forma assíncrona sessões recentes de agentes e transcripts para identificar e organizar erros recorrentes, estratégias bem-sucedidas, memória duplicada e memória desatualizada
A Harvey aplicou Dreaming a benchmarks jurídicos e aumentou em 6 vezes a taxa de conclusão de tarefas em um cenário legal
Em uma demonstração de SRE, o Dreaming encontrou um padrão de nova tentativa a cada 60 segundos que vários agentes, isoladamente, não percebiam, e refletiu isso na memória
O objetivo é uma estrutura de aprendizado contínuo em que o trabalho dos agentes de hoje automaticamente melhore os agentes de amanhã

Sessão 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

Na escala do GitHub Copilot, o cache de prompt se torna um meio central para reduzir custo e latência
A taxa de acerto de cache desejada é de 94-96%, e algo em torno de 70% é visto como sinal de problema na montagem do prompt ou no desenho do cache
O prompt de sistema e a parte inicial da lista de ferramentas devem permanecer o mais estáticos possível
Se UUID, timestamp e carregamento dinâmico de ferramentas entrarem logo no início, o cache quebra com facilidade
Mesmo em um harness que alterna entre vários modelos, é preciso manter compatibilidade com cache para que chamadas ao Opus reutilizem caches anteriores
O GitHub trabalha novos modelos na sequência benchmark offline, uso interno, teste A/B, avaliação online (eval) e otimização pós-lançamento
A estratégia de advisor é uma estrutura em que um modelo de execução barato faz a maior parte do trabalho, e o Opus só é chamado como conselheiro quando é necessário um julgamento importante
Mais do que o modelo em si, a camada operacional que reúne prompt, ferramentas, cache, seleção de modelo, avaliação e feedback online define qualidade e custo

Sessão 5 - The expanding toolkit

O código auxiliar que antes era feito manualmente agora está sendo incorporado ao modelo e à API
No uso de ferramentas, o valor de roteadores manuais ou decorators de retry está diminuindo
O Claude pode encontrar ferramentas por conta própria, observar uma chamada de ferramenta que falhou, se recuperar e chamá-la novamente
Nas instruções de ferramentas, vale a pena descrever não só a entrada, mas também o schema de saída
Quando a estrutura de saída é conhecida antecipadamente, o Claude consegue usar melhor o resultado sem chamadas de ida e volta desnecessárias
Os hooks de ferramenta pré/pós do Claude Code podem ser usados para bloquear certas chamadas ou registrar e analisar resultados automaticamente
Com contexto de 1 milhão de tokens, compressão no lado do servidor e edição de contexto, o gerenciamento de contexto em tarefas longas fica mais simples
Screenshots antigos, resultados de busca e resultados de leitura de arquivos podem ser removidos periodicamente, mantendo ainda assim as conclusões geradas por eles
O Opus 4.7 pode retornar coordenadas de pixel 1:1 em screenshots na resolução original de até 1440p, reduzindo a necessidade de correção de coordenadas na automação de tela
O código criado para compensar limitações do modelo dura pouco; o código que conecta ferramentas, dados, autenticação e contexto de domínio que o Claude não consegue ver tende a permanecer por muito mais tempo

Sessão 6 - How to get to production faster with Claude Managed Agents

Claude Managed Agents reúne em uma plataforma a gestão de contexto, gestão de credenciais, segurança, controle de acesso, revisão humana e observabilidade necessárias para agentes operacionais de longa duração
A configuração básica é composta por agent configuration, environment e session
Nos session events, é possível ver eventos do usuário, do agente, da sessão e de intervalos
O Console reúne em uma só tela configurações, ambiente, rastreamento completo de execução (trace), gargalos e ações recomendadas
outcomes é um recurso que faz o Claude repetir até satisfazer critérios de término e critérios de avaliação definidos previamente
Coordenação de múltiplos agentes, memória e Dreaming também aparecem juntos como recursos avançados
Na demonstração do dashboard, o agente encontrou paralelização, fast mode e otimização de prompt para reduzir o tempo de renderização de cerca de 37 segundos para 10 segundos
Agentes operacionais não precisam apenas de um loop de chamadas ao modelo, mas também de rastreamento, análise de gargalos, permissões e validação

Sessão 7 - A conversation with Dario Amodei & Daniela Amodei

A Anthropic ficou com falta de recursos computacionais por causa de um crescimento de uso e receita mais rápido do que o esperado
A empresa quer garantir capacidade computacional adicional para entregar mais a desenvolvedores e usuários
Desenvolvedores são tratados como usuários centrais do Claude e como o grupo que primeiro mostra como a IA se espalha pela economia como um todo
A próxima mudança do Claude Code é sair da produtividade individual para a produtividade de equipes e organizações
Quanto mais rápida fica a escrita de código, mais segurança, validação, confiabilidade e manutenção se tornam os novos gargalos
Como a capacidade dos modelos muda rapidamente, produtos que eram impossíveis alguns meses atrás de repente se tornam viáveis
O mercado de APIs continuará importante
No futuro, o Claude vai além de ajudar o trabalho de uma pessoa e passa a ampliar o trabalho de várias pessoas e vários agentes em toda a organização

Sessão 8 - Live coding session with Boris Cherny and Jarred Sumner

O Robobun do Bun reproduz automaticamente issues do GitHub e cria PRs com testes incluídos
A condição de falhar na versão anterior e passar no branch com a correção é usada como critério para enviar o PR
CLAUDE.md se torna um documento operacional do agente com comandos de build, comandos de teste, localização dos testes, padrões de falhas anteriores, estrutura de pastas e como ler logs de CI
CodeRabbit, Claude Code Review e Robobun são usados juntos para automatizar estilo, conformidade com CLAUDE.md e revisão de condições de borda fora do diff
Claude Code e Opus 4.7 combinam bem com trabalhos que elevam gradualmente o desempenho quando objetivo, forma de medição e ciclos de validação estão claros
O gargalo sai da escrita de código e vai para planejamento e validação
PRs criados por agentes podem ser tratados não como resultados que necessariamente precisam ser mesclados, mas como propostas passíveis de revisão
Mesmo com o aumento de PRs de agentes, o critério humano para merge não diminui e pode até ficar mais alto

Sessão 9 - Building with Claude Managed Agents and Asana AI teammates

Os AI teammates da Asana têm como objetivo agentes que trabalhem dentro da empresa como colegas de verdade
O agente se torna um actor para lidar com aprovações, workflows e tarefas de várias etapas junto com pessoas
Em muitas empresas, o uso de agentes ainda fica em fluxos de usuário único, nos quais uma pessoa recebe o resultado e o passa para a próxima
A Asana busca fluxos de trabalho colaborativos em que várias pessoas interagem com o mesmo agente e conhecimento e memória se acumulam
O Asana work graph conecta objetivos, portfólios, projetos, tarefas, aprovações e decisões passadas para ser usado como contexto do agente
O AI teammate entra nos sistemas como um colega humano, com configuração compartilhada, controle de acesso baseado em papéis e auditabilidade
Claude Managed Agents cuida de tarefas de várias etapas, como redigir um briefing de campanha e gerar mockups de landing pages em HTML
A Asana se concentra em interface humana, contexto corporativo, segurança e auditabilidade, enquanto Claude Managed Agents assume ciclos de validação, avaliadores, outcomes e execução de múltiplos agentes
Mais de 21 AI teammates pré-construídos são oferecidos para atividades de PMO, marketing, TI, RH e P&D
O feedback fica na memória do agente para que o próximo usuário não repita o mesmo erro

Sessão 10 - Running an AI-native engineering org

Em uma organização de engenharia AI-native, a vazão de escrita de código deixa de ser o gargalo mais caro
Validação, review, segurança, manutenção e coordenação entre funções crescem como novos gargalos
Em vez de um roadmap de 6 meses ou documentos de design para todo trabalho antes de começar, o fluxo do time do Claude Code favorece planejar no momento certo e prototipar rapidamente
Debates técnicos mudam de longas discussões em whiteboard para a criação de vários PRs de implementação a fim de comparar impacto real e formato de API
Como gerar código ficou mais fácil, testes, automação e validação mais cedo se tornam ainda mais importantes
Mais importante do que perguntar "quem escreveu este código" é distinguir a causa de regressões, a necessidade de respostas de especialistas e o objetivo de obter contexto
O time do Claude Code delega ao Claude estilo, lint, feedback de PR, algumas correções de bugs e adição de testes
Revisão jurídica, código sensível à segurança, limites de confiança e senso de produto continuam sob responsabilidade de especialistas humanos
Na contratação, a prioridade vai menos para vazão pura e mais para builders criativos com senso de produto e profunda especialização em sistemas
Indicadores de sucesso podem incluir redução do tempo de onboarding, redução do ciclo de PR e aumento de commits com ajuda do Claude

Sessão 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

A Gamma fortalece fluxos de edição baseados em agentes ao refletir rapidamente no produto melhorias em chamadas de ferramentas e coordenação de agentes
A Gamma usa o MCP connector não só como integração, mas também como canal de aquisição de clientes e ponto de entrada para workflows
A Cognition reduziu parte de seus próprios sistemas de planejamento e memória à medida que os modelos ficaram melhores em editar código, usar o sistema de arquivos e executar planos de longa duração
A Harvey redesenha a estrutura do produto a cada ponto de inflexão em foundation models, modelos de raciocínio e agentes de codificação
As capacidades atuais de plataforma da Harvey dificilmente teriam sido obtidas sem uma arquitetura agent-native
Produtos AI-native precisam partir do princípio de que a estrutura existente pode ficar obsoleta em 6 a 12 meses
Registros, observabilidade, replay e avaliação tornam-se mecanismos essenciais para responder a mudanças rápidas de arquitetura
Em áreas sensíveis como o direito, são necessários limites rígidos de dados entre dados públicos, dados privados, memória e fluxos de agentes
Mais importante do que uma arquitetura ajustada aos limites de um modelo específico é uma arquitetura capaz de absorver rapidamente o próximo salto de capacidade

Sessão 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

A Vercel vê a infraestrutura agentiva como direção central
A nuvem pode evoluir para uma infraestrutura que se recupera sozinha, se otimiza e altera suas próprias configurações
O AI Gateway é tratado como uma CDN para tokens
Ele se torna uma camada responsável por lidar com vários provedores e modelos, além de roteamento, resposta a falhas e controle de custos
Os tokens do Opus representam uma fatia de gastos muito maior do que sua fatia de uso, então é preciso enxergar com clareza a estrutura de custos ao colocar modelos de alta inteligência no produto
Após a adoção do Opus 4.5, o V0 conseguiu simplificar verificação gramatical, correção automática e alguns fluxos de processamento que antes ajustavam o modelo anterior
O salto na capacidade do modelo leva não só à adição de novos recursos, mas também a mudanças que removem código de ajuste já existente
Depois da expansão do uso de Opus no V0, o gasto com créditos do produto dobrou
Daqui para frente, além do desenvolvimento via CLI e UI, agentes assíncronos e com menos supervisão humana podem crescer ainda mais

Sessão 13 - The thinking lever

A computação em tempo de teste (test-time compute) é o eixo em que o Claude usa mais tokens e mais tempo durante o raciocínio para resolver problemas difíceis
O mesmo Opus 4.7 também apresenta grande diferença na qualidade da simulação de tráfego conforme o effort low, high ou max
Quanto mais tempo e tokens são usados, mais realistas ficam os gráficos, o fluxo do trânsito e o movimento dos veículos
Os tokens usados pelo Claude se dividem em tokens de raciocínio, tokens de chamada de ferramentas e tokens de texto
Os tokens de raciocínio são usados para inferência interna, os de chamada de ferramentas para interação com o mundo externo, e os de texto para se comunicar com o usuário
effort é um controle que expressa o equilíbrio entre tempo, custo e qualidade
Task Budgets permitem definir limites máximos de tokens, tempo e custo que o Claude pode usar em uma tarefa específica
O raciocínio adaptativo (adaptive thinking) permite que o Claude escolha livremente a ordem de pensar, usar ferramentas e responder ao usuário no momento necessário
Em casos de uso de coding e agentic, extra high é tratado como um bom valor padrão
Para classificação ou extração simples em grande volume, modelos menores são vantajosos, e para concluir rápido tarefas que exigem inteligência, um effort baixo em um modelo grande pode ser melhor

Sessão 14 - How Datadog built a universal machine tool for Claude Code

Cerca de 90% dos engenheiros da Datadog usam ferramentas de codificação com IA em código de produção
Entre eles, pelo menos 2/3 usam o Claude Code
O escopo de uso das ferramentas de codificação com IA está se ampliando de funções individuais, testes e código de integração para trabalhos em nível de sistema
O gargalo saiu da escrita de código e foi para a iteração de feedback e a validação em produção
No experimento Helix, o Claude Code conseguiu criar em poucos dias um serviço de streaming semelhante ao Kafka
Para levar isso a um ambiente de produção, são necessários shadowing, uma escada de validação e quilometragem de sistema
O Tempor faz com que o agente primeiro crie um blueprint com estado, transições, efeitos e invariantes, em vez de improvisar ferramentas na hora
Tabelas de transição, documentos de política, efeitos tipados, validadores e testes de propriedade tornam inspecionável o software criado pelo agente
Para dar liberdade ao agente, é preciso tornar legíveis por máquina os invariantes e os procedimentos de validação dos sistemas de produção

Sessão 15 - Building with Claude on Google Cloud

No Google Cloud, a forma mais fácil de configurar o Claude Code é com o assistente de configuração baseado em Application Default Credentials
O assistente de configuração consegue detectar e fixar project, region e model disponíveis
Ao usar modelos Claude no Google Cloud, é possível aproveitar cobrança por token, provisioned throughput, menos necessidade de trocar API keys, aplicação de políticas de project, manutenção dos dados dentro do project e endpoints regionais/globais
A demo mostra o fluxo em que cinco papéis — PM, UI/UX designer, software engineer, security engineer e data/growth marketer — levam até o fim a criação de um único app de feedback
O PM coloca um wireframe desenhado à mão no Claude Code para criar rapidamente um protótipo
Na etapa de UI/UX, usa-se o plan mode para fazer o Claude apresentar primeiro um plano antes da implementação
A Google Cloud developer knowledge API e o MCP server conectam documentação atualizada e orientações de arquitetura ao Claude Code
As Google Cloud Skills são usadas para ajudar na implementação de blocos individuais, como deploy de API no Cloud Run e integração entre Cloud Run e Firestore
Com sub-agents, a implementação de API, pipeline de ingestão e dashboard avança em paralelo
O security review prompt verifica problemas de OWASP ou permissões de service account, corrige os problemas encontrados e depois faz o deploy no Cloud Run

Sessão 16 - Getting more out of the Claude Platform

As prioridades para otimizar agentes de produção são prompt caching, engenharia de contexto (context engineering) e a estratégia Advisor
O prompt caching reduz o custo de tokens de entrada, diminui o tempo até o primeiro token e alivia o peso do limite de uso dos tokens em cache
A taxa de acerto de cache na casa dos 90% é tratada como meta
A estabilidade da parte inicial do prompt, a posição das definições de ferramentas e o local de inserção de valores dinâmicos afetam o cache
A tool search tool carrega só as definições de ferramentas necessárias no momento certo, economizando contexto
Colocar todas as ferramentas desde o início pesa tanto no contexto quanto no cache
A programmatic tool calling seleciona apenas os trechos necessários para inserir no contexto, em vez de colocar integralmente muitos resultados de ferramentas
A compaction reduz conversas antigas e resultados de ferramentas para permitir a continuidade de trabalhos longos
Na estratégia Advisor, Sonnet ou Haiku fazem a maior parte do trabalho, e o Opus é chamado como conselheiro apenas quando é preciso uma decisão importante
O ponto central não é chamar mais vezes o modelo, mas projetar com que contexto, ferramentas e estrutura de cache o modelo vai trabalhar

Sessão 17 - Evaluating and improving Replit Agent at scale

Os usuários do Replit Agent esperam que apps funcionais sejam criados apenas com linguagem natural, sem especificar framework nem teste
É difícil medir a qualidade do Replit Agent apenas vendo se um patch passa nos testes, como em benchmarks gerais de coding
A avaliação precisa verificar se o app funciona do jeito que o usuário pediu
A Replit usa avaliação offline e avaliação online em conjunto
A avaliação offline funciona como etapa de aprovação antes de um novo release do agente, e a avaliação online serve para responder rapidamente após o uso real
O VibeBench é um benchmark público em que 20 PRDs reais são usados como entrada para criar apps a partir de um repositório vazio, e um avaliador automático testa os apps no navegador
A maioria dos modelos tem mais dificuldade quando precisa expandir novamente código que ela mesma criou
É preciso colocar etapas de teste e validação entre os recursos para reduzir o acúmulo contínuo sobre uma base instável
O Telescope é um sistema interno que agrupa semanticamente rastros de execução em produção para encontrar falhas de cauda longa, classificar problemas, fazer o agente criar PRs e validar com VibeBench ou testes A/B
A avaliação deixa de ser uma checklist final de lançamento e se torna um motor para melhorar o agente todos os dias

Sessão 18 - The capability curve

Usuários do Claude Code fazem deploy mais rápido com mais confiança do que no ano passado
Na votação com os participantes durante a apresentação, muitos responderam que percebem ganhos de velocidade de 10x, 5x e 2x com o Claude
No SWE-bench Verified, o Sonnet 3.7 registrou cerca de 62% e o Opus 4.7, 87%
O Opus 4.7 tem mais de 3 vezes mais chance de conseguir resolver PRs difíceis em que o Sonnet 3.7 falhava
Em uma demo para recriar o Claude.ai com o mesmo prompt, modelos anteriores geraram uma UI de chat genérica e erros, enquanto o Opus 4.7 implementou as cores do Claude, respostas da API, histórico de chat, gráficos inline e dark mode
As áreas que melhoraram foram planejamento, recuperação de erros e manutenção da atenção durante execuções longas
O novo modelo primeiro faz um plano, volta atrás quando falha e mantém melhor o prompt de sistema e os objetivos mesmo em contextos longos
É preciso criar avaliações com distribuições mais próximas do produto para enxergar melhorias reais
À medida que os modelos melhoram, avaliações existentes saturam facilmente, então as avaliações também precisam ficar cada vez mais difíceis
Quando surge um novo frontier model, vale revisar e tentar reduzir novamente os procedimentos de calibração e os prompts existentes

Sessão 19 - Giving coding agents their own computers: How Cursor built cloud agents

A Cursor entende que o gargalo não está na inteligência do modelo, mas no fato de as pessoas não conseguirem dar ao modelo ferramentas suficientes, contexto suficiente e objetivos amplos o bastante
Assim como se faz onboarding de desenvolvedores humanos, agentes também precisam receber um computador, ambiente de desenvolvimento e documentação
O onboarding agent da Cursor explora o repositório e identifica como rodar o app, quais serviços existem, variáveis de ambiente e permissões
O AnyDev CLI é uma ferramenta que ajuda o agente a iniciar serviços, esperar que fiquem prontos, verificar o estado e até criar contas de teste ou fazer login
Quanto melhor o ambiente de desenvolvimento dos agentes, mais os desenvolvedores executam cloud agents e delegam tarefas maiores
O princípio básico da autonomia é dar aos agentes olhos, ferramentas e bom contexto
Os agentes precisam conseguir ver o estado do app, conversas de outros agentes e o estado dos serviços, como uma pessoa veria
A Cursor vê computer use como o próximo bloco fundamental importante depois de coding
O Claude 4.7 permite que o agent grave demos end-to-end por conta própria para validar funcionalidades, ajudando pessoas a entender rapidamente o resultado antes do code review
A Cursor trata a agent experience como um alvo de design separado e, quando um agente encontra um fluxo irritante, quebrado ou confuso, isso vira um issue de work on the factory
O objetivo final não é fazer uma pessoa conduzir manualmente de A até D, mas criar um sistema capaz de resolver de A a Z