OpenAI revela ferramentas para desenvolvedores criarem agentes de IA

xguru · 2025-03-12T09:08:31+09:00

Busca na web: pesquisa informações mais recentes na web e retorna URLs citadas Busca em arquivos: pesquisa semântica/por palavra-chave na lista de arquivos enviados Computer Use: controla o computador e executa tarefas Responses API: interface avançada e unificada de respostas. Aceita entrada de texto/imagem e permite usar busca na web, busca em arquivos e recursos de CUA Agents SDK: framework de orquestração para desenvolvimento de agentes Alguns desenvolvedores/empresas qualificados podem compartilhar prompts com a OpenAI para ajudar a melhorar os modelos Até o fim de abril deste ano, é possível usar gratuitamente até 1 milhão de tokens por dia para gpt-4.5-preview, gpt-4o e o1, e até 10 milhões de tokens para gpt-4o-mini, o1-mini e o3-mini A elegibilidade pode ser verificada no painel de desenvolvedor da OpenAI Post de apresentação da OpenAI: New tools for building agents Web Search Permite buscar informações diretamente na web para fornecer dados atualizados no ChatGPT Também é possível usar diretamente modelos ajustados e a ferramenta de busca via Chat Completions API Como a busca na web funciona na Chat Completions API O modelo sempre pesquisa na web por informações atualizadas antes de responder Para fazer com que a ferramenta de busca na web (web_search_preview) seja usada apenas quando necessário, é preciso mudar para a Responses API Modelos com suporte à busca na web gpt-4o-search-preview gpt-4o-mini-search-preview File Search Permite que o modelo recupere informações relevantes dos arquivos do usuário antes de gerar uma resposta Disponível na Responses API, busca informações na base de conhecimento dos arquivos enviados por meio de busca semântica e busca por palavra-chave Uso de Vector Store e busca semântica É possível ampliar o conhecimento base do modelo criando um Vector Store e enviando arquivos Como a ferramenta é gerenciada pela OpenAI, o usuário não precisa implementar o código manualmente Quando o modelo julgar necessário, ele chama automaticamente a ferramenta para buscar informações nos arquivos e gerar a resposta Como usar Primeiro, é necessário configurar a base de conhecimento no Vector Store e enviar os arquivos Depois de configurar o Vector Store, é possível adicionar a ferramenta file_search à lista de ferramentas disponíveis para o modelo No momento, a busca só pode ser feita em um único Vector Store por vez (apenas um ID de Vector Store pode ser usado) Computer Use Baseado no modelo Computer-Using Agent (CUA), capaz de executar tarefas no computador do usuário Combina o processamento visual e a capacidade avançada de raciocínio do GPT-4o para controlar interfaces de computador e realizar tarefas Disponível via Responses API e não pode ser usado em Chat Completions Atualmente está em beta e pode conter vulnerabilidades ou cometer erros. Não é recomendado para ambientes totalmente autenticados ou tarefas críticas Como funciona O modelo envia comandos de ação no computador, como clique (x, y) e digitação (texto) O código do usuário executa essas ações no computador ou no ambiente do navegador e retorna capturas de tela com o resultado Com base nas capturas de tela, o modelo entende o estado do ambiente e sugere a próxima ação Por meio de um loop contínuo, é possível automatizar várias ações, como clicar, digitar e rolar a tela Exemplos de uso: reserva de voos, busca de produtos, preenchimento de formulários Responses API A interface de modelos mais avançada da OpenAI Suporta entrada de texto e imagem e gera saída de texto Oferece interações com manutenção de estado, em que a saída da resposta anterior pode ser usada como a próxima entrada Possibilidade de expansão de recursos É possível ampliar os recursos do modelo por meio de ferramentas integradas File Search – permite busca semântica e por palavra-chave em arquivos enviados Web Search – permite buscar informações atualizadas na web Computer Use – permite controlar interfaces de computador e executar tarefas automatizadas Function Calling – permite acessar sistemas e dados externos É possível chamar funções Python e interagir com sistemas externos Agents SDK Permite desenvolver apps de IA baseados em agentes com um pacote simples e fácil de usar, sem abstrações complexas É uma versão em nível de produção, aprimorada a partir da plataforma experimental anterior, o Swarm Componentes principais (Primitive): Agents – agentes baseados em LLM com instruções e ferramentas Handoffs – delegação de tarefas específicas para outro agente Guardrails – validação e filtragem dos valores de entrada do agente Integração com Python e recursos avançados Quando usado com Python, permite definir relações poderosas entre ferramentas e implementar fluxos de trabalho complexos Inclui recurso de Tracing para visualização e depuração Também oferece suporte a avaliação, depuração e ajuste fino de modelos Principais características do Agents SDK Princípios de design Os recursos devem ser poderosos o suficiente, mas com pouco a aprender para que seja rápido se familiarizar Oferece ótimo desempenho no estado padrão, com possibilidade de ajuste fino quando necessário Recursos básicos Agent Loop: um loop embutido processa automaticamente chamada de ferramentas → tratamento de resultados → geração de resposta do LLM → encerramento Design Python-first: permite conectar e orquestrar agentes usando diretamente os recursos da linguagem Python Handoffs: permite delegar e coordenar tarefas entre vários agentes Guardrails: realiza validação de entrada e verificações em paralelo, com possibilidade de encerramento antecipado em caso de erro Function Tools: transforma automaticamente funções Python em ferramentas → gera e valida esquemas automaticamente Tracing: com rastreamento embutido, permite visualizar fluxos de trabalho, depurar, avaliar e melhorar

(x.com/OpenAIDevs)

21 pontos por xguru 2025-03-12 | Ainda não há comentários. | Compartilhar no WhatsApp

Busca na web: pesquisa informações mais recentes na web e retorna URLs citadas
Busca em arquivos: pesquisa semântica/por palavra-chave na lista de arquivos enviados
Computer Use: controla o computador e executa tarefas
Responses API: interface avançada e unificada de respostas. Aceita entrada de texto/imagem e permite usar busca na web, busca em arquivos e recursos de CUA
Agents SDK: framework de orquestração para desenvolvimento de agentes

Alguns desenvolvedores/empresas qualificados podem compartilhar prompts com a OpenAI para ajudar a melhorar os modelos
- Até o fim de abril deste ano, é possível usar gratuitamente até 1 milhão de tokens por dia para gpt-4.5-preview, gpt-4o e o1, e até 10 milhões de tokens para gpt-4o-mini, o1-mini e o3-mini
- A elegibilidade pode ser verificada no painel de desenvolvedor da OpenAI

Post de apresentação da OpenAI: New tools for building agents

Web Search

Permite buscar informações diretamente na web para fornecer dados atualizados no ChatGPT
Também é possível usar diretamente modelos ajustados e a ferramenta de busca via Chat Completions API
Como a busca na web funciona na Chat Completions API
- O modelo sempre pesquisa na web por informações atualizadas antes de responder
- Para fazer com que a ferramenta de busca na web (web_search_preview) seja usada apenas quando necessário, é preciso mudar para a Responses API
Modelos com suporte à busca na web
- gpt-4o-search-preview
- gpt-4o-mini-search-preview
Publicidade

File Search

Permite que o modelo recupere informações relevantes dos arquivos do usuário antes de gerar uma resposta
Disponível na Responses API, busca informações na base de conhecimento dos arquivos enviados por meio de busca semântica e busca por palavra-chave
Uso de Vector Store e busca semântica
- É possível ampliar o conhecimento base do modelo criando um Vector Store e enviando arquivos
- Como a ferramenta é gerenciada pela OpenAI, o usuário não precisa implementar o código manualmente
- Quando o modelo julgar necessário, ele chama automaticamente a ferramenta para buscar informações nos arquivos e gerar a resposta
Como usar
- Primeiro, é necessário configurar a base de conhecimento no Vector Store e enviar os arquivos
- Depois de configurar o Vector Store, é possível adicionar a ferramenta file_search à lista de ferramentas disponíveis para o modelo
- No momento, a busca só pode ser feita em um único Vector Store por vez (apenas um ID de Vector Store pode ser usado)

Computer Use

Baseado no modelo Computer-Using Agent (CUA), capaz de executar tarefas no computador do usuário
Combina o processamento visual e a capacidade avançada de raciocínio do GPT-4o para controlar interfaces de computador e realizar tarefas
Disponível via Responses API e não pode ser usado em Chat Completions
Atualmente está em beta e pode conter vulnerabilidades ou cometer erros. Não é recomendado para ambientes totalmente autenticados ou tarefas críticas
Como funciona
- O modelo envia comandos de ação no computador, como clique (x, y) e digitação (texto)
- O código do usuário executa essas ações no computador ou no ambiente do navegador e retorna capturas de tela com o resultado
- Com base nas capturas de tela, o modelo entende o estado do ambiente e sugere a próxima ação
- Por meio de um loop contínuo, é possível automatizar várias ações, como clicar, digitar e rolar a tela
Publicidade
Exemplos de uso: reserva de voos, busca de produtos, preenchimento de formulários

Responses API

A interface de modelos mais avançada da OpenAI
Suporta entrada de texto e imagem e gera saída de texto
Oferece interações com manutenção de estado, em que a saída da resposta anterior pode ser usada como a próxima entrada
Possibilidade de expansão de recursos
- É possível ampliar os recursos do modelo por meio de ferramentas integradas
  - File Search – permite busca semântica e por palavra-chave em arquivos enviados
  - Web Search – permite buscar informações atualizadas na web
  - Computer Use – permite controlar interfaces de computador e executar tarefas automatizadas
- Function Calling – permite acessar sistemas e dados externos
  - É possível chamar funções Python e interagir com sistemas externos

Agents SDK

Permite desenvolver apps de IA baseados em agentes com um pacote simples e fácil de usar, sem abstrações complexas
É uma versão em nível de produção, aprimorada a partir da plataforma experimental anterior, o Swarm
Componentes principais (Primitive):
- Agents – agentes baseados em LLM com instruções e ferramentas
- Handoffs – delegação de tarefas específicas para outro agente
- Guardrails – validação e filtragem dos valores de entrada do agente
Publicidade
Integração com Python e recursos avançados
- Quando usado com Python, permite definir relações poderosas entre ferramentas e implementar fluxos de trabalho complexos
- Inclui recurso de Tracing para visualização e depuração
- Também oferece suporte a avaliação, depuração e ajuste fino de modelos
Principais características do Agents SDK
- Princípios de design
  - Os recursos devem ser poderosos o suficiente, mas com pouco a aprender para que seja rápido se familiarizar
  - Oferece ótimo desempenho no estado padrão, com possibilidade de ajuste fino quando necessário
- Recursos básicos
  - Agent Loop: um loop embutido processa automaticamente chamada de ferramentas → tratamento de resultados → geração de resposta do LLM → encerramento
  - Design Python-first: permite conectar e orquestrar agentes usando diretamente os recursos da linguagem Python
  - Handoffs: permite delegar e coordenar tarefas entre vários agentes
  - Guardrails: realiza validação de entrada e verificações em paralelo, com possibilidade de encerramento antecipado em caso de erro
  - Function Tools: transforma automaticamente funções Python em ferramentas → gera e valida esquemas automaticamente
  - Tracing: com rastreamento embutido, permite visualizar fluxos de trabalho, depurar, avaliar e melhorar