- Busca na web: pesquisa informações mais recentes na web e retorna URLs citadas
- Busca em arquivos: pesquisa semântica/por palavra-chave na lista de arquivos enviados
- Computer Use: controla o computador e executa tarefas
- Responses API: interface avançada e unificada de respostas. Aceita entrada de texto/imagem e permite usar busca na web, busca em arquivos e recursos de CUA
- Agents SDK: framework de orquestração para desenvolvimento de agentes
- Alguns desenvolvedores/empresas qualificados podem compartilhar prompts com a OpenAI para ajudar a melhorar os modelos
- Até o fim de abril deste ano, é possível usar gratuitamente até 1 milhão de tokens por dia para
gpt-4.5-preview, gpt-4o e o1, e até 10 milhões de tokens para gpt-4o-mini, o1-mini e o3-mini
- A elegibilidade pode ser verificada no painel de desenvolvedor da OpenAI
- Permite buscar informações diretamente na web para fornecer dados atualizados no ChatGPT
- Também é possível usar diretamente modelos ajustados e a ferramenta de busca via Chat Completions API
- Como a busca na web funciona na Chat Completions API
- O modelo sempre pesquisa na web por informações atualizadas antes de responder
- Para fazer com que a ferramenta de busca na web (
web_search_preview) seja usada apenas quando necessário, é preciso mudar para a Responses API
- Modelos com suporte à busca na web
gpt-4o-search-preview
gpt-4o-mini-search-preview
- Permite que o modelo recupere informações relevantes dos arquivos do usuário antes de gerar uma resposta
- Disponível na Responses API, busca informações na base de conhecimento dos arquivos enviados por meio de busca semântica e busca por palavra-chave
- Uso de Vector Store e busca semântica
- É possível ampliar o conhecimento base do modelo criando um Vector Store e enviando arquivos
- Como a ferramenta é gerenciada pela OpenAI, o usuário não precisa implementar o código manualmente
- Quando o modelo julgar necessário, ele chama automaticamente a ferramenta para buscar informações nos arquivos e gerar a resposta
- Como usar
- Primeiro, é necessário configurar a base de conhecimento no Vector Store e enviar os arquivos
- Depois de configurar o Vector Store, é possível adicionar a ferramenta file_search à lista de ferramentas disponíveis para o modelo
- No momento, a busca só pode ser feita em um único Vector Store por vez (apenas um ID de Vector Store pode ser usado)
- Baseado no modelo Computer-Using Agent (CUA), capaz de executar tarefas no computador do usuário
- Combina o processamento visual e a capacidade avançada de raciocínio do GPT-4o para controlar interfaces de computador e realizar tarefas
- Disponível via Responses API e não pode ser usado em Chat Completions
- Atualmente está em beta e pode conter vulnerabilidades ou cometer erros. Não é recomendado para ambientes totalmente autenticados ou tarefas críticas
- Como funciona
- O modelo envia comandos de ação no computador, como clique (x, y) e digitação (texto)
- O código do usuário executa essas ações no computador ou no ambiente do navegador e retorna capturas de tela com o resultado
- Com base nas capturas de tela, o modelo entende o estado do ambiente e sugere a próxima ação
- Por meio de um loop contínuo, é possível automatizar várias ações, como clicar, digitar e rolar a tela
- Exemplos de uso: reserva de voos, busca de produtos, preenchimento de formulários
- A interface de modelos mais avançada da OpenAI
- Suporta entrada de texto e imagem e gera saída de texto
- Oferece interações com manutenção de estado, em que a saída da resposta anterior pode ser usada como a próxima entrada
- Possibilidade de expansão de recursos
- É possível ampliar os recursos do modelo por meio de ferramentas integradas
- File Search – permite busca semântica e por palavra-chave em arquivos enviados
- Web Search – permite buscar informações atualizadas na web
- Computer Use – permite controlar interfaces de computador e executar tarefas automatizadas
- Function Calling – permite acessar sistemas e dados externos
- É possível chamar funções Python e interagir com sistemas externos
- Permite desenvolver apps de IA baseados em agentes com um pacote simples e fácil de usar, sem abstrações complexas
- É uma versão em nível de produção, aprimorada a partir da plataforma experimental anterior, o Swarm
- Componentes principais (Primitive):
- Agents – agentes baseados em LLM com instruções e ferramentas
- Handoffs – delegação de tarefas específicas para outro agente
- Guardrails – validação e filtragem dos valores de entrada do agente
- Integração com Python e recursos avançados
- Quando usado com Python, permite definir relações poderosas entre ferramentas e implementar fluxos de trabalho complexos
- Inclui recurso de Tracing para visualização e depuração
- Também oferece suporte a avaliação, depuração e ajuste fino de modelos
- Principais características do Agents SDK
- Princípios de design
- Os recursos devem ser poderosos o suficiente, mas com pouco a aprender para que seja rápido se familiarizar
- Oferece ótimo desempenho no estado padrão, com possibilidade de ajuste fino quando necessário
- Recursos básicos
- Agent Loop: um loop embutido processa automaticamente chamada de ferramentas → tratamento de resultados → geração de resposta do LLM → encerramento
- Design Python-first: permite conectar e orquestrar agentes usando diretamente os recursos da linguagem Python
- Handoffs: permite delegar e coordenar tarefas entre vários agentes
- Guardrails: realiza validação de entrada e verificações em paralelo, com possibilidade de encerramento antecipado em caso de erro
- Function Tools: transforma automaticamente funções Python em ferramentas → gera e valida esquemas automaticamente
- Tracing: com rastreamento embutido, permite visualizar fluxos de trabalho, depurar, avaliar e melhorar
Ainda não há comentários.