Novo App dentro do ChatGPT e Apps SDK
- Foi anunciada a funcionalidade de usar apps interativos dentro do ChatGPT
- Os novos apps foram projetados para funcionar naturalmente dentro do fluxo da conversa, sendo sugeridos automaticamente quando o usuário precisar
- Ex.: “Spotify, crie uma playlist para a festa deste fim de semana” → o app é executado automaticamente e fornece resultados com base no contexto
- Durante uma conversa sobre imóveis, o app do Zillow pode ser sugerido para mostrar imediatamente um mapa de propriedades dentro do orçamento
- Converter em slides um esboço criado durante a conversa usando o Canva
- Fazer um curso da Coursera enquanto pede explicações complementares ao ChatGPT
- Os apps combinam comandos em linguagem natural e interfaces visuais, oferecendo uma experiência mais intuitiva do que apps web tradicionais
- Booking.com, Canva, Coursera, Figma, Expedia, Spotify e Zillow estão entre os apps parceiros do lançamento inicial
- Mais 11 apps devem ser adicionados ainda este ano: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber,...
- O processo de envio e revisão de apps começará no fim deste ano, com adoção gradual também nas versões ChatGPT Business, Enterprise e Edu
- Um novo diretório de apps permitirá aos usuários explorar e pesquisar apps, e apps com design e funcionalidades de destaque terão recomendação dentro da conversa e maior visibilidade
-
Apps SDK
- Desenvolvedores poderão criar e testar seus próprios apps com a versão preview do Apps SDK
- O SDK expande o Model Context Protocol (MCP), permitindo definir tanto a lógica quanto a interface do app
- O SDK será disponibilizado como open source, permitindo execução com o mesmo padrão também em plataformas fora do ChatGPT
- Desenvolvedores poderão integrar diretamente com backends existentes e oferecer suporte a login e acesso a recursos pagos
- Ainda este ano, o ChatGPT deverá oferecer modelo de monetização para apps e pagamento instantâneo com base no Agentic Commerce Protocol
- Com isso, o ChatGPT deve evoluir além de um simples assistente conversacional para uma plataforma integrada que interage com o ecossistema de apps
Lançamento do AgentKit – conjunto completo de ferramentas para desenvolvimento, implantação e otimização de agentes
- O AgentKit é o sucessor de Responses API e Agents SDK, uma plataforma integrada que simplifica a construção de agentes e aumenta a confiabilidade
- Antes, era necessário lidar separadamente com conectores, pipelines de avaliação, ajuste de prompts e construção de frontend, mas agora isso pode ser gerenciado de forma integrada em um único ambiente
-
Agent Builder – ferramenta visual de design de workflows
- O Agent Builder oferece um ambiente com canvas visual em drag and drop para montar a lógica do agente e gerenciar versões
- É otimizado para desenvolvimento iterativo rápido, com preview de execução, configuração de avaliações inline e guardrails personalizados
- A Ramp afirmou que, com essa ferramenta, concluiu em algumas horas uma orquestração complexa que antes levava meses, reduzindo o ciclo de desenvolvimento em 70%
- A japonesa LY Corporation também construiu seu primeiro workflow multiagente em 2 horas
-
Guardrails – proteção para agentes seguros
- Guardrails é uma camada de segurança open source que oferece mascaramento de PII, detecção de jailbreak e bloqueio de respostas anômalas
- A biblioteca Guardrails para Python e JavaScript pode ser usada de forma independente ou integrada ao Agent Builder
-
Connector Registry – gestão integrada de conexões de dados
- O Connector Registry é um painel unificado de administração para gerenciar centralmente conexões de dados entre múltiplos workspaces e organizações
- Inclui conectores nativos como Dropbox, Google Drive, SharePoint e Microsoft Teams, além de suporte a MCP de terceiros
- Administradores poderão gerenciar de forma integrada domínios, SSO e organizações de API por meio do Global Admin Console, que é pré-requisito para ativar o Connector Registry
-
ChatKit – toolkit com UI conversacional embutida
- O ChatKit é um toolkit para embutir facilmente uma UI de chat para agentes em produtos
- Dá suporte automático a streaming de respostas, gerenciamento de threads de conversa e exibição do processo de raciocínio do modelo
- Pode ser incluído diretamente na web ou em apps, com customização de tema para combinar com o design da marca
- Já está sendo usado em cenários como agente de suporte ao cliente da HubSpot e vários casos de assistentes de conhecimento, guias de onboarding e apoio à pesquisa
-
Evals – reforço nos recursos de medição de desempenho
- Para criar agentes mais confiáveis, o Evals ganha quatro novos recursos
- Datasets: criar e expandir rapidamente conjuntos de avaliação com avaliadores automáticos e anotação humana
- Trace grading: avaliar toda a execução do workflow para detectar automaticamente pontos fracos
- Automated prompt optimization: melhoria automática de prompts com base nos resultados de avaliação
- Third-party model support: suporte para avaliar também modelos externos
-
Reinforcement Fine-Tuning aprimorado
- RFT permite que desenvolvedores ajustem modelos de raciocínio da OpenAI para objetivos específicos
- Está geralmente disponível no modelo o4-mini, e o RFT para GPT-5 está em beta privada com testes por dezenas de empresas
- Novos recursos em beta
- Custom tool calls: treinar o modelo para chamar a ferramenta adequada no momento certo
- Custom graders: definir critérios de avaliação personalizados para casos de uso específicos
- ChatKit e Evals estão disponíveis em geral para todos os desenvolvedores a partir de hoje. Agent Builder e Connector Registry serão liberados gradualmente em beta e incluídos no plano de preços padrão da API
- Em breve, também serão adicionados Workflows API e opções de implantação de agentes dentro do ChatGPT
Codex em lançamento oficial – expansão do agente de código integrado para equipes de desenvolvimento
- A OpenAI anunciou o lançamento oficial da plataforma de agente de código em nuvem Codex, adicionando três recursos principais: integração com Slack, Codex SDK e ferramentas de administração
- O Codex é baseado no modelo GPT-5-Codex e opera de forma integrada em ambientes de IDE, CLI e nuvem
- Após o lançamento, o uso diário cresceu 10 vezes em relação a agosto, processando 40 trilhões de tokens em 3 semanas e sendo avaliado como um dos modelos com crescimento mais rápido
- Dentro da própria OpenAI, mais de 70% dos engenheiros da empresa usam o Codex, elevando em 70% o volume semanal de PRs mesclados, com o Codex realizando automaticamente a maior parte das revisões de código
-
Integração com Slack
- Ao marcar
@Codex em um canal da equipe, o Codex coleta automaticamente o contexto da conversa e escolhe o ambiente adequado para responder
- Os resultados são vinculados por meio de um link do Codex Cloud, permitindo mesclar alterações, iterar correções e baixar localmente
- A integração com Slack permite realizar naturalmente revisão de código, correções automáticas e solicitações de execução de build em um ambiente colaborativo de desenvolvimento
-
Codex SDK
- O Codex SDK é um kit de desenvolvimento que permite reutilizar em apps externos a implementação open source do agente do Codex CLI
- O SDK será disponibilizado primeiro para TypeScript, com suporte a outras linguagens no futuro
- Principais recursos
- Fazer parsing das respostas do agente com saída estruturada
- Gerenciamento de contexto embutido para retomada de sessões
- Suporte à automação de pipelines de CI/CD via integração com GitHub Action
- Em ambientes shell, execução direta com o comando
codex exec
- A Instacart integrou o SDK à sua plataforma Olive para implementar um ambiente de desenvolvimento automatizado de ponta a ponta, comprovando efeitos na redução de dívida técnica e na melhoria da qualidade do código
-
Reforço nas funções de administração
- Recursos de controle e exclusão de ambientes permitem gerenciar dados sensíveis e limpar ambientes desnecessários
- Há um dashboard para analisar uso do Codex e qualidade da revisão de código em CLI, IDE e web
- Administradores poderão controlar centralmente políticas e configurações de uso local do Codex, o que o torna adequado para operar em grandes organizações
- A Cisco afirmou que, com o Codex, reduziu em até 50% o tempo de revisão de PRs complexos, permitindo que engenheiros se concentrem em trabalho mais estratégico
- Integração com Slack e Codex SDK estão disponíveis imediatamente nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise
- A partir de 20 de outubro, a carga de trabalho do Codex Cloud passará a contar no cálculo de uso
- Plano Plus: cerca de 30 a 150 mensagens locais ou 5 a 40 tarefas em nuvem a cada 5 horas
- Plano Pro: cerca de 300 a 1.500 mensagens locais ou 50 a 400 tarefas em nuvem a cada 5 horas
- Ao exceder o limite, o uso do Codex será temporariamente pausado, podendo ser retomado quando o uso for reiniciado
- Code Review temporariamente não entra na contagem de uso
- Apenas casos com uso da tag
@codex review no GitHub ou ativação do recurso de revisão automática serão contabilizados como uso de Code Review
Lançamento da API de geração de vídeo com Sora
- O Sora é o modelo de mídia generativa de nova geração da OpenAI, capaz de gerar vídeos realistas e dinâmicos com áudio
- Foi desenvolvido com base em pesquisa de multi-modal diffusion, aprendendo percepção de espaço 3D, movimento de câmera e consistência de movimentos físicos
- Com isso, desenvolvedores podem gerar conteúdo automaticamente em formato texto→vídeo ou imagem→vídeo
- A nova Video API é composta por cinco endpoints principais
- Create video: cria uma nova tarefa de renderização a partir de um prompt de texto ou de um vídeo existente
- Get video status: verifica o andamento da renderização
- Download video: baixa o vídeo MP4 concluído
- List videos: gerencia a lista de vídeos gerados e oferece suporte a paginação
- Delete videos: exclui um vídeo específico do armazenamento
- Pela API, é possível automatizar por programação tarefas de geração, gerenciamento, ampliação e remix de vídeos
-
Tipos de modelo
-
Sora 2 – para iteração rápida e experimentação
- Modelo focado em velocidade e flexibilidade, adequado para testes de conceito e produção de rough cuts
- Como entrega resultados em pouco tempo, pode ser usado para criar conteúdo para redes sociais ou vídeos de protótipo
- O foco está mais em explorar ideias e validar direção visual do que em qualidade perfeita
-
Sora 2 Pro – para produção de alta qualidade
- Modelo projetado com o objetivo de atingir acabamento em nível cinematográfico
- A renderização é mais lenta e mais cara, mas a estabilidade e o nível de detalhe do vídeo melhoram bastante
- Adequado para vídeos de marketing em alta resolução, ativos de marca e criação de cenas em estilo cinematográfico
GPT-5 Pro disponível via API
- GPT-5 Pro é o principal modelo de raciocínio da OpenAI, usando mais capacidade computacional para gerar respostas mais refinadas e precisas
- É mais lento que o GPT-5 padrão, mas oferece melhor resolução de problemas complexos e qualidade consistente
- É um modelo exclusivo da Responses API, com suporte a requisições conversacionais multi-turn e recursos avançados de API, aceitando apenas o modo
reasoning.effort: high
- Não oferece suporte a Code Interpreter nem a streaming em tempo real
- Solicitações complexas podem exigir vários minutos de processamento, e para execuções longas é recomendado usar Background Mode
- Janela de contexto de 400.000 tokens, saída máxima de 272.000 tokens, Knowledge Cutoff em 30 de setembro de 2024
- Preços: por 1 milhão de tokens
- Entrada (Input): $15.00 (inclui entrada de imagem)
- Saída (Output): $120.00
Modelo GPT Realtime Mini para serviços de voz de baixo custo
- GPT-Realtime-Mini é a versão de baixo custo e alta velocidade do modelo de conversação em tempo real, com suporte a entrada de texto, imagem e áudio e geração de saída em texto e áudio
- Com conexões WebRTC, WebSocket e SIP, permite respostas em voz e texto em tempo real, com custo mais de 6 vezes menor que o gpt-realtime
- Janela de contexto de 32.000 tokens, saída máxima de 4.096 tokens, Knowledge Cutoff em 1º de outubro de 2023
- Preços: por 1 milhão de tokens
- Tokens de texto
- Entrada (Input): $0.60
- Entrada em cache (Cached input): $0.06
- Saída (Output): $2.40
- Comparação com modelos existentes
- Entrada: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (o mais barato)
- Saída: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (o mais barato)
- Tokens de áudio
- Entrada (Input): $10
- Entrada em cache (Cached input): $0.3
- Saída: $20
- Tokens de imagem
- Entrada: $0.8
- Entrada em cache: $0.08
Modelo GPT Image 1 Mini
- GPT-Image-1-Mini é a versão de baixo custo do GPT Image 1, um modelo multimodal que recebe texto e imagem como entrada e gera saída de imagem
- Em vez de priorizar qualidade máxima, o foco está em eficiência e baixo custo, sendo adequado para geração em massa de imagens e prototipagem visual
- Aceita entrada de texto e imagem, e a saída é somente imagem
- A velocidade é mais lenta, mas a eficiência de custo em relação ao desempenho é alta
- Preços: por 1 milhão de tokens
- Tokens de texto
- Entrada (Input): $2.00
- Entrada em cache (Cached input): $0.20
- Saída (Output): $8.00
- Comparação com modelos existentes
- Entrada: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (cerca de 60% mais barato)
- Saída: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (cerca de 60% mais barato)
- Tokens de imagem
- Entrada (Input): $2.50
- Entrada em cache (Cached input): $0.25
- Saída (Output): $8.00
- Geração de imagem (por 1 imagem)
- Qualidade Low
- 1024×1024: $0.005
- 1024×1536: $0.006
- 1536×1024: $0.006
- Qualidade Medium
- 1024×1024: $0.011
- 1024×1536: $0.015
- 1536×1024: $0.015
1 comentários
No Hacker News também, parece estar bem mais quieto do que eu esperava. Talvez porque eles vêm revelando e lançando as coisas aos poucos.