1 pontos por GN⁺ 2025-10-07 | 1 comentários | Compartilhar no WhatsApp
  • A OpenAI lançou o Apps SDK, um framework que dá suporte ao desenvolvimento de aplicativos que funcionam dentro do ChatGPT
  • Com esse SDK, desenvolvedores podem criar novos apps que rodam no ChatGPT e testar livremente funcionalidades experimentais em um ambiente dedicado
  • O Apps SDK está disponível atualmente em versão preview (prévia), e o envio de apps e a distribuição oficial estão previstos para acontecer mais tarde neste ano
  • Esse framework abre espaço para a expansibilidade da plataforma ChatGPT e para oportunidades de desenvolvimento de apps personalizados, tornando possível a integração e a automação com diversos softwares e serviços
  • Com a ampliação do ecossistema de desenvolvimento, espera-se impulsionar a produtividade e a criação de serviços inovadores

1 comentários

 
GN⁺ 2025-10-07
Opiniões no Hacker News
  • É interessante ver o ChatGPT se tornando cada vez mais o ponto de partida para navegar na web; em breve nem será mais necessário fazer buscas, pois haverá fluxos prontos para mapas básicos, pagamentos com Stripe, reserva de passagens aéreas etc., cobrindo a maior parte das tarefas cotidianas que as pessoas fazem
    Nos últimos 2 anos, o maior gargalo desse avanço não foi o modelo, mas sim engenharia, infraestrutura e a disposição das empresas de colaborar diretamente com a OpenAI
    Agora que a OpenAI cresceu e sua base de usuários aumentou, as empresas parecem muito mais dispostas a investir ou participar ativamente
    Essa mudança não só afeta o uso da internet centrado no usuário, como também, com mais ferramentas baseadas em SDK, pode dividir o fluxo de trabalho humano entre o tráfego que passa por chatbots e uma nova web otimizada para SEO e para chats/agentes

    • Acho que há muita gente como eu que não quer usar IA
      Especialmente na compra de passagens, não é por desconfiar que a IA vá errar, mas porque eu quero conduzir isso por conta própria
      É parecido com o fato de dirigir parecer mais seguro do que voar, mesmo sabendo que dirigir é mais arriscado
      No fim, o que importa é ter controle

    • Não entendo por que forçar a abertura de apps dentro de uma caixa de chat, exibi-los num formato estranho e no fim ainda colocar um link para o app de verdade
      Seria mais natural colocar uma caixa de chat dentro do app

    • Se uma única empresa passar a controlar, filtrar e administrar todo o uso da internet, acho que o próprio sentido da internet se perde
      Entendo o argumento de que o Google já faz algo parecido, mas pelo menos no Google Search ainda dá para ir aos sites reais
      Essa estrutura de vai e vem via ChatGPT, quase como uma brincadeira de telefone sem fio, é horrível demais

    • Assim como eu jamais deixaria um assistente de voz fazer compras por mim, é totalmente impensável deixar decisões importantes nas mãos de um LLM
      Não consigo nem imaginar entregar autorização de cobrança no meu cartão de crédito, quanto mais uma reserva de voo

    • A OpenAI teve essa oportunidade desde que sua base de usuários explodiu, mas na prática não conseguiu aproveitá-la direito com plugins e GPTs
      Ironicamente, o MCP da Anthropic pode acabar sendo o divisor de águas nessa área

  • Essa ideia parece plausível se você acredita que o ChatGPT vai se tornar a interface de usuário universal do futuro
    Mas, na prática, a tendência recente de agentes mostra justamente que talvez seja melhor esconder a interface de chat atrás de paradigmas de UI mais rígidos

    • Acho que existem muitas áreas em que o chat pode ser uma ótima interface
      Se o ChatGPT virar o distribuidor dessas experiências, ele pode substituir o Google
      Mesmo assim, em certos domínios uma interface personalizada continua sendo a abordagem certa, e se esse domínio tiver valor suficiente, alguém inevitavelmente criará uma interface dedicada

    • Hoje, o principal caso de uso de agentes é geração de código, e o público-alvo já está acostumado com IDEs ou editores de código
      Isso consome uma grande parcela dos tokens, mas não representa necessariamente as necessidades ou desejos dos usuários em geral
      Tenho convicção de que a interface de chat se popularizou tanto porque ela tem vantagens próprias
      Mesmo no uso geral de agentes, o chat oferece a conveniência de digitar ou usar voz
      Também é fácil combinar isso com uso de áudio-para-áudio ou vídeo
      Mesmo quando a geração de vídeo em tempo real se tornar possível, ainda será mais confortável consumir a maior parte dos resultados em texto

    • Acho que as pessoas não vão querer pedir ao ChatGPT para falar com Zillow ou Canva por elas
      Talvez peçam para consultar preços de imóveis no Zillow ou criar um gráfico no Canva, mas não vão sentir necessidade de chamar o app em si
      No fim, se os apps passarem a depender do ChatGPT para receber usuários, o ChatGPT inevitavelmente terá de oferecer essas funções diretamente e substituir os apps
      Ou seja, expor seu serviço ao ChatGPT com a ideia de que o chat é a interface universal acaba dificultando a própria sobrevivência do serviço

    • Acho que interface por voz e chat combinam muito bem; por exemplo, ao caminhar e fazer uma aula de idioma ou uma busca na web por voz, isso é muito útil
      Também uso, uma ou duas vezes por semana, um formato de app de notas como o NotebookLM
      Dá para experimentar bastante, como acoplar um modelo aberto pequeno a um sistema maior para extrair dados estruturados
      Continuo cético quanto à utilidade prática dos sistemas agentic atuais (MCP etc.)
      Mas pelo menos hoje ninguém veio falar de AGI
      Se você se prender ao FOMO em torno de ASI e AGI, pode acabar só quebrando financeiramente

    • A interface do futuro será uma IA local embutida no hardware, com funções aprendidas a partir de datasets
      Trabalhando com EE e modelos de energia, quando penso nas características geométricas de um osciloscópio, percebo que equações podem reconstruir essa estrutura
      O usuário poderá obter facilmente o resultado desejado por meio de uma UI de parâmetros
      O OS de hoje é uma máquina virtual para processar strings, mas o futuro será uma máquina virtual vetorial que manipula coordenadas
      Simplificando isso como uma sincronização entre matriz de memória e matriz de display, os desenvolvedores finalmente poderão se livrar do processamento de strings antiquado

  • Quando se vê a coisa na prática, não parece tão inovadora quanto se imaginava
    Os “apps” são basicamente apenas servidores MCP com a opção adicional de retornar HTML
    O problema fundamental do MCP permanece: ele é meio single-player, o usuário sempre precisa fazer o “pull”, e a estrutura de conexão não é tão intuitiva quanto simplesmente abrir um app
    Idealmente, cada app deveria ter seu próprio ponto de entrada, poder enviar notificações push ao usuário e manter persistência na UI
    A interface principal também deveria ser HTML, não chat
    Acho que isso vai terminar de forma parecida com os GPTs

    • O MCP já tem uma especificação chamada “elicitation”, e por causa disso acho que a OpenAI está preparando terreno para em breve suportar interações por push
      Se o serviço mantiver o usuário e o LLM conectados de forma contínua e proativa, o servidor MCP pode ganhar um poder de retenção enorme
      O processo de instalação/autenticação também deve ficar cada vez mais simples conforme as exigências de usuários não técnicos forem sendo atendidas
  • Foi interessante porque me lembrou de quando, ao criar o Phind 2, eu inseria widgets dinâmicos diretamente nas respostas
    A fraqueza dessa abordagem é que o esquema de entrada e saída dos apps/widgets fica hardcoded
    Enquanto você permanece dentro do escopo do widget, funciona muito bem, mas se quiser usar filtragem avançada específica no Zillow ou integrar com o StreetEasy, logo esbarra nos limites
    A partir daí, se recursos avançados estiverem faltando, o usuário simplesmente não consegue usar
    O que considero realmente inovador é a “UI gerada na hora”
    Em breve haverá uma atualização do Phind sobre isso (sou o fundador do Phind)

    • O Phind é realmente muito bom
      Antes, quando eu já estava cansado de mecanismos de busca tradicionais como o Google, que só jogavam resultados aleatórios, eu costumava encontrar rapidamente o que queria no Phind
      Mas ultimamente os próprios LLMs já fazem busca muito bem, então hoje em dia tenho usado só LLMs

    • Não é surpreendente que isso seja possível, já que já existem projetos de MCP-UI
      Ainda assim, continua lento demais para uso real e precisa melhorar

    • Também estou pensando em construir algo parecido no nosso produto e, para resolver a limitação de esquemas, tenho considerado projetar widgets como blocos o mais genéricos possível para ampliar sua utilidade
      Ainda está na fase de ideia, mas penso se o modelo poderia escolher e combinar vários widgets modulares conforme a tarefa
      Por exemplo, dividir resultados de busca em item único, comparação em matriz, seção de filtros etc. e estudar formas de tratar isso de várias maneiras dentro da sessão, mudando o contexto
      Se houver algum texto do Phind descrevendo experiências reais com isso, eu gostaria de usar como referência

    • Acho que essa limitação pode ser resolvida juntando chat com widgets pré-construídos ou sob demanda
      Na demo da keynote, foi possível fazer filtragem avançada, como mostrar no Zillow apenas casas próximas a parques para cães, agregando informações de várias fontes via interface de chat

    • Isso pode ser resolvido com MCP
      É possível atualizar dinamicamente o schema do servidor MCP sem mexer no app
      O app passa a reconhecer automaticamente o novo schema

  • Esse anúncio da OpenAI era uma oportunidade de criar algo realmente novo, mas parece que ficou só em inserir telas de apps existentes de forma fixa dentro do chat
    O verdadeiro ponto forte seria o usuário descrever a tarefa, a IA entender quais ferramentas são necessárias, combiná-las por conta própria e mostrar o resultado como um workflow ou canvas editável pelo usuário
    Frameworks como LlamaIndex Workflow e LangGraph já ajudam a implementar manualmente esses grafos (workflow-DAGs) em Python, e seria realmente poderoso se um LLM pudesse montar esse DAG em tempo real
    Os LLMs já geram muito bem código de UI e seguem bem design systems, então não há motivo para hardcodar a tela
    Espero que o Google não siga esse mesmo caminho

  • Houve recentemente um texto sobre o quanto a interface de chat está profundamente enraizada dentro da organização da OpenAI, e esse anúncio reforçou ainda mais essa impressão
    A verdadeira pergunta é: “a maioria dos usuários realmente prefere se comunicar só por conversa, em vez de elementos visuais?”
    Especialmente a ideia de ter que memorizar nomes de apps diferentes, como Zillow, e digitá-los no chat, além da possibilidade de estratégias de monetização via anúncios ou “prioridade de exibição de apps (app discovery)”, me pareceu extremamente desagradável
    Pessoalmente, espero que esse futuro não chegue

    • Parece mais uma nova rodada da discussão sobre se GUI ou terminal (ou CLI) é mais poderoso
      Em muitas tarefas que se encaixam bem em um fluxo de tokens, linha de comando ou chat podem ser superiores
      Talvez surjam até recursos como autocompletar com Tab para chamar rapidamente bots ou MCPs...
      Por outro lado, para explorar conteúdo novo ou quando há necessidade de interação gráfica, interfaces visuais e dedicadas são muito mais intuitivas
      No fim, acho que veremos uma mistura adequada de várias UIs e níveis de abstração conforme a tarefa

    • Acho que o foco em interface de chat na prática atrapalha o aproveitamento dos LLMs
      Para um leigo, já é difícil até explicar como se cria a ilusão de continuidade da conversa (gestão de contexto, estrutura em que prompts anteriores saem da memória etc.)
      Meu conselho padrão para amigos não técnicos é: “comece uma conversa nova a cada prompt”
      Assim fica mais claro o que funciona e o que não funciona
      Eu esperava que a Apple liderasse a inovação em UX aqui, mas parece que ainda não aconteceu

    • Em contrapartida, muita gente que conheço acessa o Zillow simplesmente digitando “zillow” no Google, então talvez digitar o nome de um app no chat não seja algo tão absurdo assim

  • Vejo muita reação negativa, mas pessoalmente a direção da OpenAI me parece muito óbvia
    No fim das contas, ela quer virar uma plataforma em que o usuário diz o que quer e a OAI conecta isso aos apps necessários (e-mail, calendário, pagamentos etc.) para executar
    Desse jeito, a OAI só precisaria compartilhar receita, sem depender de anúncios

    • Se você realmente acredita que apps de e-mail e calendário vão gerar uma receita impressionante, isso deve ser um choque para os investidores

    • Essa história de que não haverá anúncios está errada
      Os anúncios estarão extremamente bem escondidos, em formatos como dicas úteis e afins

    • Certamente a OpenAI vai buscar os dois caminhos: compartilhamento de receita e anúncios
      Ela já está montando equipe de ads e tem capital suficiente para testar todos os modelos de negócio escaláveis
      Vai experimentar tudo o que já funcionou historicamente, como app stores e feeds algorítmicos

    • Para virar uma plataforma, lock-in de usuários ou alguma vantagem injusta é essencial
      Ter apenas um modelo melhor não basta

  • Até agora, esse modelo não me parece melhorar nada de fato
    Alguém mencionou integração com Spotify, mas assistentes da geração anterior já faziam isso
    Parece só uma forma muito mais cara de fazer exatamente as mesmas coisas de antes

  • No fim, todos estão destinados a despejar apps gratuitos no ecossistema de ferramentas da OpenAI
    Esse movimento fortalece a defensabilidade da OpenAI e sacrifica outras oportunidades

    • No começo do iPhone existiam só 6 apps, e nem havia App Store
      Em 2024, a App Store do iOS gerou US$ 1,3 trilhão em receita, dos quais 85% ficaram com os desenvolvedores

    • Fico curioso sobre qual seria o ‘moat’ da OpenAI

    • Na verdade, essa linha de pensamento não faz sentido
      Não há motivo para que dados em tempo real e ações via MCP deixem de ter valor prático para os usuários
      Conectar apps pode exigir autenticação, mas se não houver pagamento envolvido, isso vira um canal de distribuição enorme

  • Esse anúncio da OpenAI é um experimento interessante em termos de branding
    Chamar MCP de “app” passa uma sensação de familiaridade e facilidade de uso, enquanto chamá-lo de tool/server/ferramenta soa técnico demais
    Com demos adicionais com Expedia e Spotify, passa a impressão de que já existem MCPs prontos para uso imediato pelo usuário

    • No fim, o que foi lançado desta vez são servidores MCP que o ChatGPT pode usar