A lição amarga da expansão dos LLMs

(sawyerhood.com)

23 pontos por GN⁺ 2025-11-28 | 1 comentários | Compartilhar no WhatsApp

Nos últimos 3 anos, a evolução das formas de expandir LLMs avançou em vários formatos, como plugins, instruções do usuário, memória, protocolos e skills
Os primeiros ChatGPT Plugins tentaram viabilizar o uso de ferramentas genéricas por meio de chamadas de API, mas fracassaram por causa das limitações do modelo e de uma UX complexa
Depois surgiram Custom Instructions e Custom GPTs, oferecendo personalização simples baseada em prompt e uma estrutura de modelos customizados compartilháveis
O Model Context Protocol (MCP) e o Claude Code tornaram possível uma integração poderosa de ferramentas, embora complexa, e recentemente Agent Skills ressurgiu como uma forma mais simples dessa ideia
No fim, a direção central da expansão dos LLMs tende a ser uma arquitetura de agentes que executa tarefas apenas com ferramentas de propósito geral e instruções em linguagem natural

História e mudanças na expansão dos LLMs

A forma de usar LLMs evoluiu de simples entrada de texto para agentes que controlam codebases e navegadores
- A questão de como dar suporte à personalização do usuário passou a ser um desafio central
- Foram testadas várias abordagens, de prompts de sistema simples a protocolos complexos de cliente-servidor

ChatGPT Plugins (março de 2023)

A OpenAI anunciou os ChatGPT Plugins, projetados para permitir que o LLM chamasse endpoints REST por meio da especificação OpenAPI
- A proposta era o uso de ferramentas genéricas em nível de AGI
Porém, por causa das limitações do GPT-3.5 e do GPT-4 inicial, surgiam erros e perda de contexto ao explorar especificações de API em grande escala
- A UX incômoda, como a ativação manual de plugins, também foi um problema
Mesmo assim, o plugin Code Interpreter (depois Advanced Data Analysis) mostrou o potencial de um poderoso ambiente de execução em sandbox

Custom Instructions (julho de 2023)

Um recurso simples de prompt personalizado que reduziu a complexidade dos plugins
- É adicionado automaticamente a todas as conversas, resolvendo o problema de repetir contexto
Depois passou a servir como precursor de arquivos de regras em ambientes de desenvolvimento, como .cursorrules e CLAUDE.md

Custom GPTs (novembro de 2023)

A OpenAI transformou prompt engineering em produto com os Custom GPTs
- Reunindo persona, arquivos e actions para criar links compartilháveis de GPTs personalizados
Foi um recuo da abordagem aberta dos plugins para o formato de apps de propósito único

Memory no ChatGPT (fevereiro de 2024)

O primeiro caso de transição para um recurso de personalização automática
- Lembra informações mencionadas durante a conversa e as reflete automaticamente no contexto depois
- Marca o início de uma arquitetura de agente persistente que mantém estado de longo prazo sem configuração manual do usuário

Cursor Rules (abril de 2024)

O Cursor IDE introduziu o gerenciamento de instruções por repositório com o arquivo .cursorrules
- Ex.: “usar tabs”, “sem ponto e vírgula”, “usar TypeScript”
Depois evoluiu para a estrutura de pastas .cursor/rules, permitindo aplicar regras por arquivo e por diretório
Também foi adicionada a capacidade de o LLM decidir por conta própria quando aplicar as regras

Model Context Protocol (MCP, novembro de 2024)

O MCP, introduzido pela Anthropic, oferece uma estrutura para o modelo usar ferramentas reais com estabilidade
- Mantém uma conexão cliente-servidor e troca definições de ferramentas, recursos e prompts
Em vez de apenas adicionar contexto, ele fornece capacidades reais
- Ex.: leitura de repositório, query em banco de dados, deploy na Vercel
Apesar da alta complexidade e da carga de configuração, é usado como camada de base do ChatGPT Apps (anunciado em outubro de 2025)

Claude Code e mecanismos de expansão (fevereiro de 2025)

O Claude Code é um agente que integra vários métodos de expansão
- Gerenciamento de instruções do repositório com CLAUDE.md
- Integração de ferramentas com MCP
- Suporte a Slash Commands, Hooks, Sub-agents e Output Styles (descontinuação prevista)
Alguns recursos ainda têm futuro incerto, mas ele é visto como um modelo experimental de integração da expansão de agentes

Agent Skills (outubro de 2025)

Uma reencarnação dos ChatGPT Plugins, usando uma estrutura de skills baseada em pastas sem protocolo complexo
- Composto por skills/, SKILL.md, scripts e arquivos de exemplo
- Lê todo o conteúdo apenas quando necessário, resolvendo o problema de inchaço da janela de contexto (context bloat)
Exemplo: uma skill de teste de webapp baseada em Playwright
- O SKILL.md inclui metadados e instruções de uso
- Os scripts são executados diretamente, e o LLM não precisa carregar o conteúdo do código no contexto sem necessidade
Parte do pressuposto de acesso a um computador de propósito geral, e o ponto central é uma abordagem que confia em ferramentas genéricas mais do que em ferramentas especializadas

Perspectivas futuras

As Agent Skills concretizam o ideal dos plugins iniciais
- Os modelos ficaram inteligentes o bastante para executar tarefas apenas com ferramentas genéricas e instruções
O agente deixa de ser um simples loop de LLM e passa a ser redefinido como um agente de execução acoplado a um computador
- Ex.: Claude Code, Zo Computer e outros representam essa integração entre LLM e computador
Após 2026, espera-se que as aplicações com LLM se disseminem em uma arquitetura de agentes embutidos no computador
Em conclusão, há a possibilidade de que a expansão baseada em linguagem natural volte ao centro, em vez de protocolos complexos como o MCP

1 comentários

GN⁺ 2025-11-28

Comentários no Hacker News

Acho que a linguagem natural é ambígua demais, então expandi-la como linguagem de programação é ineficiente
A razão de a matemática ter sua própria linguagem específica de domínio é justamente garantir clareza
- Já trabalhei com comunicação técnica, e até a linguagem natural pode ser refinada com bastante precisão se passar por loops repetitivos de leitura–edição–revisão
  Em inglês é trabalhoso, mas quando você se acostuma dá para reduzir a ambiguidade
- Por isso acho que precisamos de progressive hardening, reforçando a especificação gradualmente
  O conceito está bem explicado neste documento
Acho que Skills é um conceito que realizou na prática o sonho dos ChatGPT Plugins
Agora os modelos parecem inteligentes o bastante para isso realmente funcionar
Simon Willison também argumentou neste texto que Skills é uma mudança maior do que MCP, mas por enquanto parece receber menos atenção por causa da inércia em torno do MCP
- Skills parece menos interessante porque, na prática, é mais próximo de uma documentação carregada seletivamente
  Mas o fato de eliminar o scaffolding complexo exigido pelo MCP é muito mais importante
  Por exemplo, ao processar transcrições de uma conta do Fathom, bastou criar um script de CLI e escrever um SKILL.md
  Testes de API do cliente também foram resolvidos da mesma forma
  Só que essa abordagem é menos chamativa e oferece menos espaço para criar grandes ferramentas, então parece receber menos atenção
- Hoje em dia há muito cansaço com LLM, então acho que as pessoas se empolgam menos com Skills
  Além disso, Skills pressupõe agentes capazes de executar código arbitrário, o que eleva a barreira de entrada
- Ainda não entendo o que há de tão especial em um diretório de Skills
  Faz tempo que eu peço ao Claude Code para “ler X e fazer Y”, então fico me perguntando em que isso difere de Skills
- A execução em sandbox do Claude Skills é ineficiente demais
  É frustrante ter de acompanhar o trabalho dependendo de I/O e de instruções print
- Skills parece ser uma espécie de versão para usuário final do MCP
  MCP é para construir sistemas, e Skills é específico do Claude, então o lock-in é forte
  O fato de não ser possível referenciar ou compor skills entre si também é uma limitação grande
  No fim, quando você tenta resolver problemas de expansão, reutilização e uso remoto, parece inevitável voltar ao MCP
  Ainda assim, se Skills se firmar como outra visão do MCP, talvez no futuro apareça algo como um conversor de Skill→MCP
Não entendo o que a melhora dos modelos tem a ver com a Bitter Lesson
Continua sendo uma estrutura em que a especialização humana é injetada para compensar as limitações do modelo
Se fosse realmente a Bitter Lesson, seria um caso de obter resultados melhores apenas aumentando os recursos computacionais, sem intervenção humana
- Eu também cliquei achando que esse seria o tema do texto
Custom GPTs é um conceito antigo, mas recentemente encontrei um uso prático para isso
Criei um Custom GPT conectado à API do Notion para gerenciar as notas de reunião e tarefas da minha esposa, e em poucas horas já estava funcionando de forma bem útil
Tentei integrar com o app Reminders, mas por restrições da API e problemas de permissão na UI acabei tendo de construir eu mesmo um servidor MCP
Deixei um MacBook Pro antigo com Amphetamine ligado, conectado por Tailnet e túnel do Cloudflare, para ficar acessível pelo ChatGPT
É complexo, mas colocar um agente de IA como hub central teve bastante valor
A implementação relacionada está descrita neste blog
O ChatGPT 5.1 ainda alucina APIs que não existem, mas mesmo assim está melhorando aos poucos
Assim como o mundo mudou toda vez que os humanos melhoraram sua capacidade de processar informação, ele vai mudar de novo mesmo que os LLMs só aumentem a probabilidade de acertar
Concordo com a frase “tenho vontade de vender MCP a descoberto”
MCP é difícil de lidar, mas há muitas tarefas no mundo que precisam de uma interface segura
A razão de o design inicial ser complexo foi expor diretamente a realidade do processamento de tokens em streaming
É complexo, mas ainda acho que está na fronteira de um sistema simples que funciona
Não vai ser totalmente substituído, e estruturas como o MCP ainda serão necessárias por um tempo até que os modelos consigam lidar direito com ambientes de agentes
- No fim, MCP é só mais um formato de API autodescritivo
  Hoje em dia os modelos já conseguem interagir bem apenas com uma descrição simples da API
  Se a API já existe, a necessidade de criar um servidor MCP diminui bastante
- Não entendo por que dizem que MCP é difícil
  A implementação está no nível de JSON-RPC + API
  O exemplo hello-world do FastMCP em Python é quase idêntico à versão em Flask
- Acho que o MCP veio cedo demais
  Skills surgiu como reação a isso, e daqui para frente parece que vamos evoluir para uma estrutura em que o espaço do LLM e o espaço do código se auto-organizam
- MCP é só mais uma história de middleware, e esse tipo de coisa sempre fracassou
O Skills.md provavelmente vai acabar sofrendo do mesmo problema de inchaço de contexto que o MCP
Eu preferiria simplesmente deixar scripts sem explicação e treinar o LLM para buscar o que precisa dentro da pasta
- Acho que isso é um problema de engenharia solucionável
  Por exemplo, bastaria ter um subagente leve para ler e selecionar skills
As ChatGPT Apps anunciadas este mês parecem quase idênticas aos ChatGPT Plugins de 3 anos atrás
A diferença está só na forma de chamar o plugin — antes era escolhido num menu suspenso, agora basta colocar o nome no prompt
Do ponto de vista do usuário, não parece haver grande diferença
Acho que devemos ver prompts como programas probabilísticos, e que precisamos de um shell dedicado para chamá-los
Agentes de programação como Claude Code ou Codex são exemplos disso
Estou pesquisando como separar esse tipo de recurso do IDE e evoluí-lo para um shell independente como o llm-do
O verdadeiro núcleo da expansão de LLM é a integração com o shell
Um LLM conectado ao shell pode fazer praticamente qualquer coisa
- Dá para cavar uma piscina com uma colher, mas eu acho melhor usar uma retroescavadeira (backhoe)

A lição amarga da expansão dos LLMs

História e mudanças na expansão dos LLMs

ChatGPT Plugins (março de 2023)

Custom Instructions (julho de 2023)

Custom GPTs (novembro de 2023)

Memory no ChatGPT (fevereiro de 2024)

Cursor Rules (abril de 2024)

Model Context Protocol (MCP, novembro de 2024)

Claude Code e mecanismos de expansão (fevereiro de 2025)

Agent Skills (outubro de 2025)

Perspectivas futuras

Leituras relacionadas

1 comentários

Comentários no Hacker News