- A OpenAI lançou o Apps SDK, um framework que dá suporte ao desenvolvimento de aplicativos que funcionam dentro do ChatGPT
- Com esse SDK, desenvolvedores podem criar novos apps que rodam no ChatGPT e testar livremente funcionalidades experimentais em um ambiente dedicado
- O Apps SDK está disponível atualmente em versão preview (prévia), e o envio de apps e a distribuição oficial estão previstos para acontecer mais tarde neste ano
- Esse framework abre espaço para a expansibilidade da plataforma ChatGPT e para oportunidades de desenvolvimento de apps personalizados, tornando possível a integração e a automação com diversos softwares e serviços
- Com a ampliação do ecossistema de desenvolvimento, espera-se impulsionar a produtividade e a criação de serviços inovadores
1 comentários
Opiniões no Hacker News
É interessante ver o ChatGPT se tornando cada vez mais o ponto de partida para navegar na web; em breve nem será mais necessário fazer buscas, pois haverá fluxos prontos para mapas básicos, pagamentos com Stripe, reserva de passagens aéreas etc., cobrindo a maior parte das tarefas cotidianas que as pessoas fazem
Nos últimos 2 anos, o maior gargalo desse avanço não foi o modelo, mas sim engenharia, infraestrutura e a disposição das empresas de colaborar diretamente com a OpenAI
Agora que a OpenAI cresceu e sua base de usuários aumentou, as empresas parecem muito mais dispostas a investir ou participar ativamente
Essa mudança não só afeta o uso da internet centrado no usuário, como também, com mais ferramentas baseadas em SDK, pode dividir o fluxo de trabalho humano entre o tráfego que passa por chatbots e uma nova web otimizada para SEO e para chats/agentes
Acho que há muita gente como eu que não quer usar IA
Especialmente na compra de passagens, não é por desconfiar que a IA vá errar, mas porque eu quero conduzir isso por conta própria
É parecido com o fato de dirigir parecer mais seguro do que voar, mesmo sabendo que dirigir é mais arriscado
No fim, o que importa é ter controle
Não entendo por que forçar a abertura de apps dentro de uma caixa de chat, exibi-los num formato estranho e no fim ainda colocar um link para o app de verdade
Seria mais natural colocar uma caixa de chat dentro do app
Se uma única empresa passar a controlar, filtrar e administrar todo o uso da internet, acho que o próprio sentido da internet se perde
Entendo o argumento de que o Google já faz algo parecido, mas pelo menos no Google Search ainda dá para ir aos sites reais
Essa estrutura de vai e vem via ChatGPT, quase como uma brincadeira de telefone sem fio, é horrível demais
Assim como eu jamais deixaria um assistente de voz fazer compras por mim, é totalmente impensável deixar decisões importantes nas mãos de um LLM
Não consigo nem imaginar entregar autorização de cobrança no meu cartão de crédito, quanto mais uma reserva de voo
A OpenAI teve essa oportunidade desde que sua base de usuários explodiu, mas na prática não conseguiu aproveitá-la direito com plugins e GPTs
Ironicamente, o MCP da Anthropic pode acabar sendo o divisor de águas nessa área
Essa ideia parece plausível se você acredita que o ChatGPT vai se tornar a interface de usuário universal do futuro
Mas, na prática, a tendência recente de agentes mostra justamente que talvez seja melhor esconder a interface de chat atrás de paradigmas de UI mais rígidos
Acho que existem muitas áreas em que o chat pode ser uma ótima interface
Se o ChatGPT virar o distribuidor dessas experiências, ele pode substituir o Google
Mesmo assim, em certos domínios uma interface personalizada continua sendo a abordagem certa, e se esse domínio tiver valor suficiente, alguém inevitavelmente criará uma interface dedicada
Hoje, o principal caso de uso de agentes é geração de código, e o público-alvo já está acostumado com IDEs ou editores de código
Isso consome uma grande parcela dos tokens, mas não representa necessariamente as necessidades ou desejos dos usuários em geral
Tenho convicção de que a interface de chat se popularizou tanto porque ela tem vantagens próprias
Mesmo no uso geral de agentes, o chat oferece a conveniência de digitar ou usar voz
Também é fácil combinar isso com uso de áudio-para-áudio ou vídeo
Mesmo quando a geração de vídeo em tempo real se tornar possível, ainda será mais confortável consumir a maior parte dos resultados em texto
Acho que as pessoas não vão querer pedir ao ChatGPT para falar com Zillow ou Canva por elas
Talvez peçam para consultar preços de imóveis no Zillow ou criar um gráfico no Canva, mas não vão sentir necessidade de chamar o app em si
No fim, se os apps passarem a depender do ChatGPT para receber usuários, o ChatGPT inevitavelmente terá de oferecer essas funções diretamente e substituir os apps
Ou seja, expor seu serviço ao ChatGPT com a ideia de que o chat é a interface universal acaba dificultando a própria sobrevivência do serviço
Acho que interface por voz e chat combinam muito bem; por exemplo, ao caminhar e fazer uma aula de idioma ou uma busca na web por voz, isso é muito útil
Também uso, uma ou duas vezes por semana, um formato de app de notas como o NotebookLM
Dá para experimentar bastante, como acoplar um modelo aberto pequeno a um sistema maior para extrair dados estruturados
Continuo cético quanto à utilidade prática dos sistemas agentic atuais (MCP etc.)
Mas pelo menos hoje ninguém veio falar de AGI
Se você se prender ao FOMO em torno de ASI e AGI, pode acabar só quebrando financeiramente
A interface do futuro será uma IA local embutida no hardware, com funções aprendidas a partir de datasets
Trabalhando com EE e modelos de energia, quando penso nas características geométricas de um osciloscópio, percebo que equações podem reconstruir essa estrutura
O usuário poderá obter facilmente o resultado desejado por meio de uma UI de parâmetros
O OS de hoje é uma máquina virtual para processar strings, mas o futuro será uma máquina virtual vetorial que manipula coordenadas
Simplificando isso como uma sincronização entre matriz de memória e matriz de display, os desenvolvedores finalmente poderão se livrar do processamento de strings antiquado
Quando se vê a coisa na prática, não parece tão inovadora quanto se imaginava
Os “apps” são basicamente apenas servidores MCP com a opção adicional de retornar HTML
O problema fundamental do MCP permanece: ele é meio single-player, o usuário sempre precisa fazer o “pull”, e a estrutura de conexão não é tão intuitiva quanto simplesmente abrir um app
Idealmente, cada app deveria ter seu próprio ponto de entrada, poder enviar notificações push ao usuário e manter persistência na UI
A interface principal também deveria ser HTML, não chat
Acho que isso vai terminar de forma parecida com os GPTs
Se o serviço mantiver o usuário e o LLM conectados de forma contínua e proativa, o servidor MCP pode ganhar um poder de retenção enorme
O processo de instalação/autenticação também deve ficar cada vez mais simples conforme as exigências de usuários não técnicos forem sendo atendidas
Foi interessante porque me lembrou de quando, ao criar o Phind 2, eu inseria widgets dinâmicos diretamente nas respostas
A fraqueza dessa abordagem é que o esquema de entrada e saída dos apps/widgets fica hardcoded
Enquanto você permanece dentro do escopo do widget, funciona muito bem, mas se quiser usar filtragem avançada específica no Zillow ou integrar com o StreetEasy, logo esbarra nos limites
A partir daí, se recursos avançados estiverem faltando, o usuário simplesmente não consegue usar
O que considero realmente inovador é a “UI gerada na hora”
Em breve haverá uma atualização do Phind sobre isso (sou o fundador do Phind)
O Phind é realmente muito bom
Antes, quando eu já estava cansado de mecanismos de busca tradicionais como o Google, que só jogavam resultados aleatórios, eu costumava encontrar rapidamente o que queria no Phind
Mas ultimamente os próprios LLMs já fazem busca muito bem, então hoje em dia tenho usado só LLMs
Não é surpreendente que isso seja possível, já que já existem projetos de MCP-UI
Ainda assim, continua lento demais para uso real e precisa melhorar
Também estou pensando em construir algo parecido no nosso produto e, para resolver a limitação de esquemas, tenho considerado projetar widgets como blocos o mais genéricos possível para ampliar sua utilidade
Ainda está na fase de ideia, mas penso se o modelo poderia escolher e combinar vários widgets modulares conforme a tarefa
Por exemplo, dividir resultados de busca em item único, comparação em matriz, seção de filtros etc. e estudar formas de tratar isso de várias maneiras dentro da sessão, mudando o contexto
Se houver algum texto do Phind descrevendo experiências reais com isso, eu gostaria de usar como referência
Acho que essa limitação pode ser resolvida juntando chat com widgets pré-construídos ou sob demanda
Na demo da keynote, foi possível fazer filtragem avançada, como mostrar no Zillow apenas casas próximas a parques para cães, agregando informações de várias fontes via interface de chat
Isso pode ser resolvido com MCP
É possível atualizar dinamicamente o schema do servidor MCP sem mexer no app
O app passa a reconhecer automaticamente o novo schema
Esse anúncio da OpenAI era uma oportunidade de criar algo realmente novo, mas parece que ficou só em inserir telas de apps existentes de forma fixa dentro do chat
O verdadeiro ponto forte seria o usuário descrever a tarefa, a IA entender quais ferramentas são necessárias, combiná-las por conta própria e mostrar o resultado como um workflow ou canvas editável pelo usuário
Frameworks como LlamaIndex Workflow e LangGraph já ajudam a implementar manualmente esses grafos (workflow-DAGs) em Python, e seria realmente poderoso se um LLM pudesse montar esse DAG em tempo real
Os LLMs já geram muito bem código de UI e seguem bem design systems, então não há motivo para hardcodar a tela
Espero que o Google não siga esse mesmo caminho
Houve recentemente um texto sobre o quanto a interface de chat está profundamente enraizada dentro da organização da OpenAI, e esse anúncio reforçou ainda mais essa impressão
A verdadeira pergunta é: “a maioria dos usuários realmente prefere se comunicar só por conversa, em vez de elementos visuais?”
Especialmente a ideia de ter que memorizar nomes de apps diferentes, como Zillow, e digitá-los no chat, além da possibilidade de estratégias de monetização via anúncios ou “prioridade de exibição de apps (app discovery)”, me pareceu extremamente desagradável
Pessoalmente, espero que esse futuro não chegue
Parece mais uma nova rodada da discussão sobre se GUI ou terminal (ou CLI) é mais poderoso
Em muitas tarefas que se encaixam bem em um fluxo de tokens, linha de comando ou chat podem ser superiores
Talvez surjam até recursos como autocompletar com Tab para chamar rapidamente bots ou MCPs...
Por outro lado, para explorar conteúdo novo ou quando há necessidade de interação gráfica, interfaces visuais e dedicadas são muito mais intuitivas
No fim, acho que veremos uma mistura adequada de várias UIs e níveis de abstração conforme a tarefa
Acho que o foco em interface de chat na prática atrapalha o aproveitamento dos LLMs
Para um leigo, já é difícil até explicar como se cria a ilusão de continuidade da conversa (gestão de contexto, estrutura em que prompts anteriores saem da memória etc.)
Meu conselho padrão para amigos não técnicos é: “comece uma conversa nova a cada prompt”
Assim fica mais claro o que funciona e o que não funciona
Eu esperava que a Apple liderasse a inovação em UX aqui, mas parece que ainda não aconteceu
Em contrapartida, muita gente que conheço acessa o Zillow simplesmente digitando “zillow” no Google, então talvez digitar o nome de um app no chat não seja algo tão absurdo assim
Vejo muita reação negativa, mas pessoalmente a direção da OpenAI me parece muito óbvia
No fim das contas, ela quer virar uma plataforma em que o usuário diz o que quer e a OAI conecta isso aos apps necessários (e-mail, calendário, pagamentos etc.) para executar
Desse jeito, a OAI só precisaria compartilhar receita, sem depender de anúncios
Se você realmente acredita que apps de e-mail e calendário vão gerar uma receita impressionante, isso deve ser um choque para os investidores
Essa história de que não haverá anúncios está errada
Os anúncios estarão extremamente bem escondidos, em formatos como dicas úteis e afins
Certamente a OpenAI vai buscar os dois caminhos: compartilhamento de receita e anúncios
Ela já está montando equipe de ads e tem capital suficiente para testar todos os modelos de negócio escaláveis
Vai experimentar tudo o que já funcionou historicamente, como app stores e feeds algorítmicos
Para virar uma plataforma, lock-in de usuários ou alguma vantagem injusta é essencial
Ter apenas um modelo melhor não basta
Até agora, esse modelo não me parece melhorar nada de fato
Alguém mencionou integração com Spotify, mas assistentes da geração anterior já faziam isso
Parece só uma forma muito mais cara de fazer exatamente as mesmas coisas de antes
No fim, todos estão destinados a despejar apps gratuitos no ecossistema de ferramentas da OpenAI
Esse movimento fortalece a defensabilidade da OpenAI e sacrifica outras oportunidades
No começo do iPhone existiam só 6 apps, e nem havia App Store
Em 2024, a App Store do iOS gerou US$ 1,3 trilhão em receita, dos quais 85% ficaram com os desenvolvedores
Fico curioso sobre qual seria o ‘moat’ da OpenAI
Na verdade, essa linha de pensamento não faz sentido
Não há motivo para que dados em tempo real e ações via MCP deixem de ter valor prático para os usuários
Conectar apps pode exigir autenticação, mas se não houver pagamento envolvido, isso vira um canal de distribuição enorme
Esse anúncio da OpenAI é um experimento interessante em termos de branding
Chamar MCP de “app” passa uma sensação de familiaridade e facilidade de uso, enquanto chamá-lo de tool/server/ferramenta soa técnico demais
Com demos adicionais com Expedia e Spotify, passa a impressão de que já existem MCPs prontos para uso imediato pelo usuário