OpenAI Apps SDK

(developers.openai.com)

1 pontos por GN⁺ 2025-10-07 | 1 comentários | Compartilhar no WhatsApp

A OpenAI lançou o Apps SDK, um framework que dá suporte ao desenvolvimento de aplicativos que funcionam dentro do ChatGPT
Com esse SDK, desenvolvedores podem criar novos apps que rodam no ChatGPT e testar livremente funcionalidades experimentais em um ambiente dedicado
O Apps SDK está disponível atualmente em versão preview (prévia), e o envio de apps e a distribuição oficial estão previstos para acontecer mais tarde neste ano
Esse framework abre espaço para a expansibilidade da plataforma ChatGPT e para oportunidades de desenvolvimento de apps personalizados, tornando possível a integração e a automação com diversos softwares e serviços
Com a ampliação do ecossistema de desenvolvimento, espera-se impulsionar a produtividade e a criação de serviços inovadores

1 comentários

GN⁺ 2025-10-07

Opiniões no Hacker News

É interessante ver o ChatGPT se tornando cada vez mais o ponto de partida para navegar na web; em breve nem será mais necessário fazer buscas, pois haverá fluxos prontos para mapas básicos, pagamentos com Stripe, reserva de passagens aéreas etc., cobrindo a maior parte das tarefas cotidianas que as pessoas fazem
Nos últimos 2 anos, o maior gargalo desse avanço não foi o modelo, mas sim engenharia, infraestrutura e a disposição das empresas de colaborar diretamente com a OpenAI
Agora que a OpenAI cresceu e sua base de usuários aumentou, as empresas parecem muito mais dispostas a investir ou participar ativamente
Essa mudança não só afeta o uso da internet centrado no usuário, como também, com mais ferramentas baseadas em SDK, pode dividir o fluxo de trabalho humano entre o tráfego que passa por chatbots e uma nova web otimizada para SEO e para chats/agentes
- Acho que há muita gente como eu que não quer usar IA
  Especialmente na compra de passagens, não é por desconfiar que a IA vá errar, mas porque eu quero conduzir isso por conta própria
  É parecido com o fato de dirigir parecer mais seguro do que voar, mesmo sabendo que dirigir é mais arriscado
  No fim, o que importa é ter controle
- Não entendo por que forçar a abertura de apps dentro de uma caixa de chat, exibi-los num formato estranho e no fim ainda colocar um link para o app de verdade
  Seria mais natural colocar uma caixa de chat dentro do app
- Se uma única empresa passar a controlar, filtrar e administrar todo o uso da internet, acho que o próprio sentido da internet se perde
  Entendo o argumento de que o Google já faz algo parecido, mas pelo menos no Google Search ainda dá para ir aos sites reais
  Essa estrutura de vai e vem via ChatGPT, quase como uma brincadeira de telefone sem fio, é horrível demais
- Assim como eu jamais deixaria um assistente de voz fazer compras por mim, é totalmente impensável deixar decisões importantes nas mãos de um LLM
  Não consigo nem imaginar entregar autorização de cobrança no meu cartão de crédito, quanto mais uma reserva de voo
- A OpenAI teve essa oportunidade desde que sua base de usuários explodiu, mas na prática não conseguiu aproveitá-la direito com plugins e GPTs
  Ironicamente, o MCP da Anthropic pode acabar sendo o divisor de águas nessa área
Essa ideia parece plausível se você acredita que o ChatGPT vai se tornar a interface de usuário universal do futuro
Mas, na prática, a tendência recente de agentes mostra justamente que talvez seja melhor esconder a interface de chat atrás de paradigmas de UI mais rígidos
- Acho que existem muitas áreas em que o chat pode ser uma ótima interface
  Se o ChatGPT virar o distribuidor dessas experiências, ele pode substituir o Google
  Mesmo assim, em certos domínios uma interface personalizada continua sendo a abordagem certa, e se esse domínio tiver valor suficiente, alguém inevitavelmente criará uma interface dedicada
- Hoje, o principal caso de uso de agentes é geração de código, e o público-alvo já está acostumado com IDEs ou editores de código
  Isso consome uma grande parcela dos tokens, mas não representa necessariamente as necessidades ou desejos dos usuários em geral
  Tenho convicção de que a interface de chat se popularizou tanto porque ela tem vantagens próprias
  Mesmo no uso geral de agentes, o chat oferece a conveniência de digitar ou usar voz
  Também é fácil combinar isso com uso de áudio-para-áudio ou vídeo
  Mesmo quando a geração de vídeo em tempo real se tornar possível, ainda será mais confortável consumir a maior parte dos resultados em texto
- Acho que as pessoas não vão querer pedir ao ChatGPT para falar com Zillow ou Canva por elas
  Talvez peçam para consultar preços de imóveis no Zillow ou criar um gráfico no Canva, mas não vão sentir necessidade de chamar o app em si
  No fim, se os apps passarem a depender do ChatGPT para receber usuários, o ChatGPT inevitavelmente terá de oferecer essas funções diretamente e substituir os apps
  Ou seja, expor seu serviço ao ChatGPT com a ideia de que o chat é a interface universal acaba dificultando a própria sobrevivência do serviço
- Acho que interface por voz e chat combinam muito bem; por exemplo, ao caminhar e fazer uma aula de idioma ou uma busca na web por voz, isso é muito útil
  Também uso, uma ou duas vezes por semana, um formato de app de notas como o NotebookLM
  Dá para experimentar bastante, como acoplar um modelo aberto pequeno a um sistema maior para extrair dados estruturados
  Continuo cético quanto à utilidade prática dos sistemas agentic atuais (MCP etc.)
  Mas pelo menos hoje ninguém veio falar de AGI
  Se você se prender ao FOMO em torno de ASI e AGI, pode acabar só quebrando financeiramente
- A interface do futuro será uma IA local embutida no hardware, com funções aprendidas a partir de datasets
  Trabalhando com EE e modelos de energia, quando penso nas características geométricas de um osciloscópio, percebo que equações podem reconstruir essa estrutura
  O usuário poderá obter facilmente o resultado desejado por meio de uma UI de parâmetros
  O OS de hoje é uma máquina virtual para processar strings, mas o futuro será uma máquina virtual vetorial que manipula coordenadas
  Simplificando isso como uma sincronização entre matriz de memória e matriz de display, os desenvolvedores finalmente poderão se livrar do processamento de strings antiquado
Quando se vê a coisa na prática, não parece tão inovadora quanto se imaginava
Os “apps” são basicamente apenas servidores MCP com a opção adicional de retornar HTML
O problema fundamental do MCP permanece: ele é meio single-player, o usuário sempre precisa fazer o “pull”, e a estrutura de conexão não é tão intuitiva quanto simplesmente abrir um app
Idealmente, cada app deveria ter seu próprio ponto de entrada, poder enviar notificações push ao usuário e manter persistência na UI
A interface principal também deveria ser HTML, não chat
Acho que isso vai terminar de forma parecida com os GPTs
- O MCP já tem uma especificação chamada “elicitation”, e por causa disso acho que a OpenAI está preparando terreno para em breve suportar interações por push
  Se o serviço mantiver o usuário e o LLM conectados de forma contínua e proativa, o servidor MCP pode ganhar um poder de retenção enorme
  O processo de instalação/autenticação também deve ficar cada vez mais simples conforme as exigências de usuários não técnicos forem sendo atendidas
Foi interessante porque me lembrou de quando, ao criar o Phind 2, eu inseria widgets dinâmicos diretamente nas respostas
A fraqueza dessa abordagem é que o esquema de entrada e saída dos apps/widgets fica hardcoded
Enquanto você permanece dentro do escopo do widget, funciona muito bem, mas se quiser usar filtragem avançada específica no Zillow ou integrar com o StreetEasy, logo esbarra nos limites
A partir daí, se recursos avançados estiverem faltando, o usuário simplesmente não consegue usar
O que considero realmente inovador é a “UI gerada na hora”
Em breve haverá uma atualização do Phind sobre isso (sou o fundador do Phind)
- O Phind é realmente muito bom
  Antes, quando eu já estava cansado de mecanismos de busca tradicionais como o Google, que só jogavam resultados aleatórios, eu costumava encontrar rapidamente o que queria no Phind
  Mas ultimamente os próprios LLMs já fazem busca muito bem, então hoje em dia tenho usado só LLMs
- Não é surpreendente que isso seja possível, já que já existem projetos de MCP-UI
  Ainda assim, continua lento demais para uso real e precisa melhorar
- Também estou pensando em construir algo parecido no nosso produto e, para resolver a limitação de esquemas, tenho considerado projetar widgets como blocos o mais genéricos possível para ampliar sua utilidade
  Ainda está na fase de ideia, mas penso se o modelo poderia escolher e combinar vários widgets modulares conforme a tarefa
  Por exemplo, dividir resultados de busca em item único, comparação em matriz, seção de filtros etc. e estudar formas de tratar isso de várias maneiras dentro da sessão, mudando o contexto
  Se houver algum texto do Phind descrevendo experiências reais com isso, eu gostaria de usar como referência
- Acho que essa limitação pode ser resolvida juntando chat com widgets pré-construídos ou sob demanda
  Na demo da keynote, foi possível fazer filtragem avançada, como mostrar no Zillow apenas casas próximas a parques para cães, agregando informações de várias fontes via interface de chat
- Isso pode ser resolvido com MCP
  É possível atualizar dinamicamente o schema do servidor MCP sem mexer no app
  O app passa a reconhecer automaticamente o novo schema
Esse anúncio da OpenAI era uma oportunidade de criar algo realmente novo, mas parece que ficou só em inserir telas de apps existentes de forma fixa dentro do chat
O verdadeiro ponto forte seria o usuário descrever a tarefa, a IA entender quais ferramentas são necessárias, combiná-las por conta própria e mostrar o resultado como um workflow ou canvas editável pelo usuário
Frameworks como LlamaIndex Workflow e LangGraph já ajudam a implementar manualmente esses grafos (workflow-DAGs) em Python, e seria realmente poderoso se um LLM pudesse montar esse DAG em tempo real
Os LLMs já geram muito bem código de UI e seguem bem design systems, então não há motivo para hardcodar a tela
Espero que o Google não siga esse mesmo caminho
Houve recentemente um texto sobre o quanto a interface de chat está profundamente enraizada dentro da organização da OpenAI, e esse anúncio reforçou ainda mais essa impressão
A verdadeira pergunta é: “a maioria dos usuários realmente prefere se comunicar só por conversa, em vez de elementos visuais?”
Especialmente a ideia de ter que memorizar nomes de apps diferentes, como Zillow, e digitá-los no chat, além da possibilidade de estratégias de monetização via anúncios ou “prioridade de exibição de apps (app discovery)”, me pareceu extremamente desagradável
Pessoalmente, espero que esse futuro não chegue
- Parece mais uma nova rodada da discussão sobre se GUI ou terminal (ou CLI) é mais poderoso
  Em muitas tarefas que se encaixam bem em um fluxo de tokens, linha de comando ou chat podem ser superiores
  Talvez surjam até recursos como autocompletar com Tab para chamar rapidamente bots ou MCPs...
  Por outro lado, para explorar conteúdo novo ou quando há necessidade de interação gráfica, interfaces visuais e dedicadas são muito mais intuitivas
  No fim, acho que veremos uma mistura adequada de várias UIs e níveis de abstração conforme a tarefa
- Acho que o foco em interface de chat na prática atrapalha o aproveitamento dos LLMs
  Para um leigo, já é difícil até explicar como se cria a ilusão de continuidade da conversa (gestão de contexto, estrutura em que prompts anteriores saem da memória etc.)
  Meu conselho padrão para amigos não técnicos é: “comece uma conversa nova a cada prompt”
  Assim fica mais claro o que funciona e o que não funciona
  Eu esperava que a Apple liderasse a inovação em UX aqui, mas parece que ainda não aconteceu
- Em contrapartida, muita gente que conheço acessa o Zillow simplesmente digitando “zillow” no Google, então talvez digitar o nome de um app no chat não seja algo tão absurdo assim
Vejo muita reação negativa, mas pessoalmente a direção da OpenAI me parece muito óbvia
No fim das contas, ela quer virar uma plataforma em que o usuário diz o que quer e a OAI conecta isso aos apps necessários (e-mail, calendário, pagamentos etc.) para executar
Desse jeito, a OAI só precisaria compartilhar receita, sem depender de anúncios
- Se você realmente acredita que apps de e-mail e calendário vão gerar uma receita impressionante, isso deve ser um choque para os investidores
- Essa história de que não haverá anúncios está errada
  Os anúncios estarão extremamente bem escondidos, em formatos como dicas úteis e afins
- Certamente a OpenAI vai buscar os dois caminhos: compartilhamento de receita e anúncios
  Ela já está montando equipe de ads e tem capital suficiente para testar todos os modelos de negócio escaláveis
  Vai experimentar tudo o que já funcionou historicamente, como app stores e feeds algorítmicos
- Para virar uma plataforma, lock-in de usuários ou alguma vantagem injusta é essencial
  Ter apenas um modelo melhor não basta
Até agora, esse modelo não me parece melhorar nada de fato
Alguém mencionou integração com Spotify, mas assistentes da geração anterior já faziam isso
Parece só uma forma muito mais cara de fazer exatamente as mesmas coisas de antes
No fim, todos estão destinados a despejar apps gratuitos no ecossistema de ferramentas da OpenAI
Esse movimento fortalece a defensabilidade da OpenAI e sacrifica outras oportunidades
- No começo do iPhone existiam só 6 apps, e nem havia App Store
  Em 2024, a App Store do iOS gerou US$ 1,3 trilhão em receita, dos quais 85% ficaram com os desenvolvedores
- Fico curioso sobre qual seria o ‘moat’ da OpenAI
- Na verdade, essa linha de pensamento não faz sentido
  Não há motivo para que dados em tempo real e ações via MCP deixem de ter valor prático para os usuários
  Conectar apps pode exigir autenticação, mas se não houver pagamento envolvido, isso vira um canal de distribuição enorme
Esse anúncio da OpenAI é um experimento interessante em termos de branding
Chamar MCP de “app” passa uma sensação de familiaridade e facilidade de uso, enquanto chamá-lo de tool/server/ferramenta soa técnico demais
Com demos adicionais com Expedia e Spotify, passa a impressão de que já existem MCPs prontos para uso imediato pelo usuário
- No fim, o que foi lançado desta vez são servidores MCP que o ChatGPT pode usar

OpenAI Apps SDK

Leituras relacionadas

1 comentários

Opiniões no Hacker News