18 pontos por xguru 2025-10-07 | 1 comentários | Compartilhar no WhatsApp

Novo App dentro do ChatGPT e Apps SDK

  • Foi anunciada a funcionalidade de usar apps interativos dentro do ChatGPT
  • Os novos apps foram projetados para funcionar naturalmente dentro do fluxo da conversa, sendo sugeridos automaticamente quando o usuário precisar
    • Ex.: “Spotify, crie uma playlist para a festa deste fim de semana” → o app é executado automaticamente e fornece resultados com base no contexto
    • Durante uma conversa sobre imóveis, o app do Zillow pode ser sugerido para mostrar imediatamente um mapa de propriedades dentro do orçamento
    • Converter em slides um esboço criado durante a conversa usando o Canva
    • Fazer um curso da Coursera enquanto pede explicações complementares ao ChatGPT
  • Os apps combinam comandos em linguagem natural e interfaces visuais, oferecendo uma experiência mais intuitiva do que apps web tradicionais
  • Booking.com, Canva, Coursera, Figma, Expedia, Spotify e Zillow estão entre os apps parceiros do lançamento inicial
    • Mais 11 apps devem ser adicionados ainda este ano: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber,...
  • O processo de envio e revisão de apps começará no fim deste ano, com adoção gradual também nas versões ChatGPT Business, Enterprise e Edu
  • Um novo diretório de apps permitirá aos usuários explorar e pesquisar apps, e apps com design e funcionalidades de destaque terão recomendação dentro da conversa e maior visibilidade
  • Apps SDK

    • Desenvolvedores poderão criar e testar seus próprios apps com a versão preview do Apps SDK
    • O SDK expande o Model Context Protocol (MCP), permitindo definir tanto a lógica quanto a interface do app
    • O SDK será disponibilizado como open source, permitindo execução com o mesmo padrão também em plataformas fora do ChatGPT
    • Desenvolvedores poderão integrar diretamente com backends existentes e oferecer suporte a login e acesso a recursos pagos
  • Ainda este ano, o ChatGPT deverá oferecer modelo de monetização para apps e pagamento instantâneo com base no Agentic Commerce Protocol
  • Com isso, o ChatGPT deve evoluir além de um simples assistente conversacional para uma plataforma integrada que interage com o ecossistema de apps

Lançamento do AgentKit – conjunto completo de ferramentas para desenvolvimento, implantação e otimização de agentes

  • O AgentKit é o sucessor de Responses API e Agents SDK, uma plataforma integrada que simplifica a construção de agentes e aumenta a confiabilidade
  • Antes, era necessário lidar separadamente com conectores, pipelines de avaliação, ajuste de prompts e construção de frontend, mas agora isso pode ser gerenciado de forma integrada em um único ambiente
  • Agent Builder – ferramenta visual de design de workflows

    • O Agent Builder oferece um ambiente com canvas visual em drag and drop para montar a lógica do agente e gerenciar versões
    • É otimizado para desenvolvimento iterativo rápido, com preview de execução, configuração de avaliações inline e guardrails personalizados
    • A Ramp afirmou que, com essa ferramenta, concluiu em algumas horas uma orquestração complexa que antes levava meses, reduzindo o ciclo de desenvolvimento em 70%
    • A japonesa LY Corporation também construiu seu primeiro workflow multiagente em 2 horas
    • Guardrails – proteção para agentes seguros

      • Guardrails é uma camada de segurança open source que oferece mascaramento de PII, detecção de jailbreak e bloqueio de respostas anômalas
      • A biblioteca Guardrails para Python e JavaScript pode ser usada de forma independente ou integrada ao Agent Builder
  • Connector Registry – gestão integrada de conexões de dados

    • O Connector Registry é um painel unificado de administração para gerenciar centralmente conexões de dados entre múltiplos workspaces e organizações
    • Inclui conectores nativos como Dropbox, Google Drive, SharePoint e Microsoft Teams, além de suporte a MCP de terceiros
    • Administradores poderão gerenciar de forma integrada domínios, SSO e organizações de API por meio do Global Admin Console, que é pré-requisito para ativar o Connector Registry
  • ChatKit – toolkit com UI conversacional embutida

    • O ChatKit é um toolkit para embutir facilmente uma UI de chat para agentes em produtos
    • Dá suporte automático a streaming de respostas, gerenciamento de threads de conversa e exibição do processo de raciocínio do modelo
    • Pode ser incluído diretamente na web ou em apps, com customização de tema para combinar com o design da marca
    • Já está sendo usado em cenários como agente de suporte ao cliente da HubSpot e vários casos de assistentes de conhecimento, guias de onboarding e apoio à pesquisa
  • Evals – reforço nos recursos de medição de desempenho

    • Para criar agentes mais confiáveis, o Evals ganha quatro novos recursos
      • Datasets: criar e expandir rapidamente conjuntos de avaliação com avaliadores automáticos e anotação humana
      • Trace grading: avaliar toda a execução do workflow para detectar automaticamente pontos fracos
      • Automated prompt optimization: melhoria automática de prompts com base nos resultados de avaliação
      • Third-party model support: suporte para avaliar também modelos externos
  • Reinforcement Fine-Tuning aprimorado

    • RFT permite que desenvolvedores ajustem modelos de raciocínio da OpenAI para objetivos específicos
    • Está geralmente disponível no modelo o4-mini, e o RFT para GPT-5 está em beta privada com testes por dezenas de empresas
    • Novos recursos em beta
      • Custom tool calls: treinar o modelo para chamar a ferramenta adequada no momento certo
      • Custom graders: definir critérios de avaliação personalizados para casos de uso específicos
  • ChatKit e Evals estão disponíveis em geral para todos os desenvolvedores a partir de hoje. Agent Builder e Connector Registry serão liberados gradualmente em beta e incluídos no plano de preços padrão da API
    • Em breve, também serão adicionados Workflows API e opções de implantação de agentes dentro do ChatGPT

Codex em lançamento oficial – expansão do agente de código integrado para equipes de desenvolvimento

  • A OpenAI anunciou o lançamento oficial da plataforma de agente de código em nuvem Codex, adicionando três recursos principais: integração com Slack, Codex SDK e ferramentas de administração
  • O Codex é baseado no modelo GPT-5-Codex e opera de forma integrada em ambientes de IDE, CLI e nuvem
    • Após o lançamento, o uso diário cresceu 10 vezes em relação a agosto, processando 40 trilhões de tokens em 3 semanas e sendo avaliado como um dos modelos com crescimento mais rápido
  • Dentro da própria OpenAI, mais de 70% dos engenheiros da empresa usam o Codex, elevando em 70% o volume semanal de PRs mesclados, com o Codex realizando automaticamente a maior parte das revisões de código
  • Integração com Slack

    • Ao marcar @Codex em um canal da equipe, o Codex coleta automaticamente o contexto da conversa e escolhe o ambiente adequado para responder
    • Os resultados são vinculados por meio de um link do Codex Cloud, permitindo mesclar alterações, iterar correções e baixar localmente
    • A integração com Slack permite realizar naturalmente revisão de código, correções automáticas e solicitações de execução de build em um ambiente colaborativo de desenvolvimento
  • Codex SDK

    • O Codex SDK é um kit de desenvolvimento que permite reutilizar em apps externos a implementação open source do agente do Codex CLI
    • O SDK será disponibilizado primeiro para TypeScript, com suporte a outras linguagens no futuro
    • Principais recursos
      • Fazer parsing das respostas do agente com saída estruturada
      • Gerenciamento de contexto embutido para retomada de sessões
      • Suporte à automação de pipelines de CI/CD via integração com GitHub Action
      • Em ambientes shell, execução direta com o comando codex exec
    • A Instacart integrou o SDK à sua plataforma Olive para implementar um ambiente de desenvolvimento automatizado de ponta a ponta, comprovando efeitos na redução de dívida técnica e na melhoria da qualidade do código
  • Reforço nas funções de administração

    • Recursos de controle e exclusão de ambientes permitem gerenciar dados sensíveis e limpar ambientes desnecessários
    • Há um dashboard para analisar uso do Codex e qualidade da revisão de código em CLI, IDE e web
    • Administradores poderão controlar centralmente políticas e configurações de uso local do Codex, o que o torna adequado para operar em grandes organizações
    • A Cisco afirmou que, com o Codex, reduziu em até 50% o tempo de revisão de PRs complexos, permitindo que engenheiros se concentrem em trabalho mais estratégico
  • Integração com Slack e Codex SDK estão disponíveis imediatamente nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise
  • A partir de 20 de outubro, a carga de trabalho do Codex Cloud passará a contar no cálculo de uso
    • Plano Plus: cerca de 30 a 150 mensagens locais ou 5 a 40 tarefas em nuvem a cada 5 horas
    • Plano Pro: cerca de 300 a 1.500 mensagens locais ou 50 a 400 tarefas em nuvem a cada 5 horas
    • Ao exceder o limite, o uso do Codex será temporariamente pausado, podendo ser retomado quando o uso for reiniciado
    • Code Review temporariamente não entra na contagem de uso
      • Apenas casos com uso da tag @codex review no GitHub ou ativação do recurso de revisão automática serão contabilizados como uso de Code Review

Lançamento da API de geração de vídeo com Sora

  • O Sora é o modelo de mídia generativa de nova geração da OpenAI, capaz de gerar vídeos realistas e dinâmicos com áudio
  • Foi desenvolvido com base em pesquisa de multi-modal diffusion, aprendendo percepção de espaço 3D, movimento de câmera e consistência de movimentos físicos
  • Com isso, desenvolvedores podem gerar conteúdo automaticamente em formato texto→vídeo ou imagem→vídeo
  • A nova Video API é composta por cinco endpoints principais
    • Create video: cria uma nova tarefa de renderização a partir de um prompt de texto ou de um vídeo existente
    • Get video status: verifica o andamento da renderização
    • Download video: baixa o vídeo MP4 concluído
    • List videos: gerencia a lista de vídeos gerados e oferece suporte a paginação
    • Delete videos: exclui um vídeo específico do armazenamento
  • Pela API, é possível automatizar por programação tarefas de geração, gerenciamento, ampliação e remix de vídeos
  • Tipos de modelo

    • Sora 2 – para iteração rápida e experimentação

      • Modelo focado em velocidade e flexibilidade, adequado para testes de conceito e produção de rough cuts
      • Como entrega resultados em pouco tempo, pode ser usado para criar conteúdo para redes sociais ou vídeos de protótipo
      • O foco está mais em explorar ideias e validar direção visual do que em qualidade perfeita
    • Sora 2 Pro – para produção de alta qualidade

      • Modelo projetado com o objetivo de atingir acabamento em nível cinematográfico
      • A renderização é mais lenta e mais cara, mas a estabilidade e o nível de detalhe do vídeo melhoram bastante
      • Adequado para vídeos de marketing em alta resolução, ativos de marca e criação de cenas em estilo cinematográfico

GPT-5 Pro disponível via API

  • GPT-5 Pro é o principal modelo de raciocínio da OpenAI, usando mais capacidade computacional para gerar respostas mais refinadas e precisas
  • É mais lento que o GPT-5 padrão, mas oferece melhor resolução de problemas complexos e qualidade consistente
  • É um modelo exclusivo da Responses API, com suporte a requisições conversacionais multi-turn e recursos avançados de API, aceitando apenas o modo reasoning.effort: high
  • Não oferece suporte a Code Interpreter nem a streaming em tempo real
  • Solicitações complexas podem exigir vários minutos de processamento, e para execuções longas é recomendado usar Background Mode
  • Janela de contexto de 400.000 tokens, saída máxima de 272.000 tokens, Knowledge Cutoff em 30 de setembro de 2024
  • Preços: por 1 milhão de tokens
    • Entrada (Input): $15.00 (inclui entrada de imagem)
    • Saída (Output): $120.00

Modelo GPT Realtime Mini para serviços de voz de baixo custo

  • GPT-Realtime-Mini é a versão de baixo custo e alta velocidade do modelo de conversação em tempo real, com suporte a entrada de texto, imagem e áudio e geração de saída em texto e áudio
  • Com conexões WebRTC, WebSocket e SIP, permite respostas em voz e texto em tempo real, com custo mais de 6 vezes menor que o gpt-realtime
  • Janela de contexto de 32.000 tokens, saída máxima de 4.096 tokens, Knowledge Cutoff em 1º de outubro de 2023
  • Preços: por 1 milhão de tokens
    • Tokens de texto
      • Entrada (Input): $0.60
      • Entrada em cache (Cached input): $0.06
      • Saída (Output): $2.40
      • Comparação com modelos existentes
        • Entrada: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (o mais barato)
        • Saída: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (o mais barato)
    • Tokens de áudio
      • Entrada (Input): $10
      • Entrada em cache (Cached input): $0.3
      • Saída: $20
    • Tokens de imagem
      • Entrada: $0.8
      • Entrada em cache: $0.08

Modelo GPT Image 1 Mini

  • GPT-Image-1-Mini é a versão de baixo custo do GPT Image 1, um modelo multimodal que recebe texto e imagem como entrada e gera saída de imagem
  • Em vez de priorizar qualidade máxima, o foco está em eficiência e baixo custo, sendo adequado para geração em massa de imagens e prototipagem visual
  • Aceita entrada de texto e imagem, e a saída é somente imagem
  • A velocidade é mais lenta, mas a eficiência de custo em relação ao desempenho é alta
  • Preços: por 1 milhão de tokens
    • Tokens de texto
      • Entrada (Input): $2.00
      • Entrada em cache (Cached input): $0.20
      • Saída (Output): $8.00
      • Comparação com modelos existentes
        • Entrada: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (cerca de 60% mais barato)
        • Saída: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (cerca de 60% mais barato)
    • Tokens de imagem
      • Entrada (Input): $2.50
      • Entrada em cache (Cached input): $0.25
      • Saída (Output): $8.00
    • Geração de imagem (por 1 imagem)
      • Qualidade Low
        • 1024×1024: $0.005
        • 1024×1536: $0.006
        • 1536×1024: $0.006
      • Qualidade Medium
        • 1024×1024: $0.011
        • 1024×1536: $0.015
        • 1536×1024: $0.015

1 comentários

 
laeyoung 2025-10-08

No Hacker News também, parece estar bem mais quieto do que eu esperava. Talvez porque eles vêm revelando e lançando as coisas aos poucos.