A próxima evolução do Agents SDK

(openai.com)

7 pontos por GN⁺ 14 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp

A OpenAI atualizou de forma significativa o Agents SDK, oferecendo uma infraestrutura padronizada para que agentes realizem inspeção de arquivos, execução de comandos, edição de código e tarefas de longa duração em um ambiente de sandbox controlado
O novo harness integra memória configurável, orquestração com reconhecimento de sandbox, ferramentas de sistema de arquivos no estilo Codex, MCP, skills, AGENTS.md, shell, apply patch e outras primitivas principais de sistemas de agentes de fronteira
Com suporte nativo à execução em sandbox, oferece suporte integrado a diversos provedores de sandbox como Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop e Vercel, além de permitir conexão com sandboxes próprias
Com uma arquitetura de separação entre harness e computação, garante defesa contra prompt injection, execução durável baseada em snapshots e paralelização em múltiplos contêineres para segurança e escalabilidade
Está em disponibilidade geral (GA) para todos os clientes com cobrança padrão por tokens e uso de ferramentas via API, e suporte a TypeScript, modo de código e subagentes serão adicionados futuramente

Limitações dos sistemas de agentes existentes

Para que desenvolvedores criem agentes úteis, é necessário não apenas o melhor modelo, mas também um sistema que ofereça suporte a inspeção de arquivos, execução de comandos, escrita de código e manutenção de tarefas em múltiplas etapas
Trade-offs das abordagens existentes
- Frameworks independentes de modelo são flexíveis, mas não aproveitam completamente os recursos dos modelos de fronteira
- SDKs de provedores de modelo ficam mais próximos do modelo, mas muitas vezes oferecem pouca visibilidade sobre o harness
- APIs gerenciadas de agentes simplificam a implantação, mas limitam onde o agente é executado e como acessa dados sensíveis

Com este lançamento, o harness do Agents SDK oferece capacidades mais robustas para agentes que lidam com documentos, arquivos e sistemas
Principais primitivas recém-integradas
- Uso de ferramentas via MCP
- Progressive disclosure por meio de skills
- Instruções personalizadas via AGENTS.md
- Execução de código com a ferramenta shell
- Edição de arquivos com a ferramenta apply patch
Como o harness continuará integrando novos padrões agênticos e primitivas ao longo do tempo, os desenvolvedores poderão focar na lógica específica do domínio em vez de atualizar a infraestrutura central
O harness melhora estabilidade e desempenho ao alinhar a execução à forma como os modelos de fronteira apresentam melhor desempenho, especialmente em tarefas de longa duração ou tarefas complexas que exigem coordenação entre diferentes ferramentas e sistemas
Ele foi projetado para atender às exigências específicas de cada produto, permitindo ajustar com flexibilidade o uso de ferramentas, memória e ambientes de sandbox ao stack existente do desenvolvedor

O Agents SDK atualizado oferece suporte nativo à execução em sandbox, permitindo que agentes rodem em um ambiente computacional controlado com os arquivos, ferramentas e dependências necessários para a tarefa
Muitos agentes úteis precisam de um workspace capaz de ler/gravar arquivos, instalar dependências, executar código e usar ferramentas com segurança, e o suporte nativo a sandbox passa a fornecer isso de forma integrada, sem configuração separada
É possível usar uma sandbox própria ou aproveitar o suporte embutido a Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop e Vercel
Para tornar o ambiente portátil entre vários provedores, foi introduzida a abstração Manifest
- Permite montar arquivos locais e definir diretórios de saída
- Suporta importar dados de provedores de armazenamento como AWS S3, Google Cloud Storage, Azure Blob Storage e Cloudflare R2
Isso oferece aos desenvolvedores uma forma consistente de configurar ambientes, do protótipo local até a implantação em produção
Também oferece ao modelo um workspace previsível quanto a onde ficam as entradas, onde devem ir as saídas e como organizar o trabalho em tarefas de longa duração

Sistemas de agentes devem ser projetados assumindo tentativas de prompt injection e exfiltração de dados, e a separação entre harness e computação ajuda a isolar credenciais do ambiente onde o código gerado pelo modelo é executado
Suporte a execução durável (durable execution)
- Quando o estado do agente é externalizado, a perda do contêiner de sandbox não leva à perda da execução
- Com snapshotting e reidratação integrados, se o ambiente original falhar ou expirar, é possível restaurar o estado a partir do último checkpoint em um novo contêiner e continuar a execução
Escalabilidade aprimorada
- A execução do agente pode usar uma ou várias sandboxes
- Sandboxes podem ser acionadas apenas quando necessário, e subagentes podem ser direcionados a ambientes isolados
- A paralelização em múltiplos contêineres permite execução mais rápida

Segundo Rachael Burns, Staff Engineer & AI Tech Lead da Oscar Health, o Agents SDK atualizado permitiu implementar em nível de produção a automação de fluxos de trabalho com registros clínicos que abordagens anteriores não conseguiam tratar com estabilidade suficiente
O diferencial principal não está na simples extração de metadados, mas em compreender com precisão cada encounter boundary em registros longos e complexos
Como resultado, tornou-se possível entender mais rapidamente o contexto de cada visita do paciente, contribuindo para melhorar o cuidado e a experiência do paciente

Os novos recursos do Agents SDK estão em disponibilidade geral (GA) para todos os clientes via API
Aplica-se a política padrão de preços da API (cobrança com base em tokens e uso de ferramentas)

A OpenAI continuará evoluindo o Agents SDK para ajudar a colocar agentes mais poderosos em produção com menos infraestrutura customizada, mantendo a flexibilidade e o controle dos desenvolvedores
O novo harness e os recursos de sandbox serão lançados primeiro em Python, com suporte a TypeScript em uma versão futura
Estão em desenvolvimento os recursos de code mode e subagents para Python e TypeScript
Também está previsto ampliar a integração com mais provedores de sandbox, integrações e formas de conexão com ferramentas e sistemas já usados por desenvolvedores para apoiar a integração do ecossistema de agentes