Sou um usuário experiente de LLM, mas na prática não os uso com tanta frequência

(minimaxir.com)

29 pontos por GN⁺ 2025-05-06 | 2 comentários | Compartilhar no WhatsApp

O autor afirma que, embora pesquise LLMs e tecnologias de geração de texto há mais de 10 anos, inesperadamente não usa LLMs com tanta frequência no dia a dia
Ao usar LLMs, dá importância a controle cuidadoso, como prompt engineering, configuração de system prompt e ajuste de temperatura, e prefere uma abordagem via API em vez de interfaces frontend genéricas
Em tarefas da BuzzFeed como rotulagem de dados, resumo de clusters de artigos e revisão de guia de estilo, usou LLMs para resolver problemas concretos, comprovando grande economia de tempo
Não usa LLMs para escrever, mas os utiliza para validar a lógica dos textos por meio de um teste de perspectiva crítica com comentários fictícios no estilo do Hacker News
LLMs são úteis como apoio à programação, mas para tarefas complexas ou que exigem confiabilidade prefere implementar diretamente, mantendo uma postura cética em relação a agentes e vibe coding

A distância entre mim e os LLMs

O autor é um cientista de dados com ampla experiência no uso de ferramentas de IA generativa, incluindo geração de texto com RNN, fine-tuning de GPT-2 e experimentos com GPT-3/ChatGPT
Ainda assim, os casos em que os usa diretamente com frequência são raros; sua decisão de usá-los segue uma abordagem instrumental, dependendo da natureza e da necessidade da tarefa

Como controla os LLMs

O ponto central do uso de LLMs é induzir a saída desejada por meio de prompt engineering
Em vez de um frontend genérico (ChatGPT.com), prefere chamar a API diretamente ou usar uma UI de backend, com preferência especial pela API do Claude Sonnet
Ajusta o equilíbrio entre criatividade e determinismo com system prompts e controle de temperatura, normalmente definindo 0.0 ~ 0.3 para garantir previsibilidade na saída
O problema de hallucination (geração de conteúdo que não corresponde aos fatos) tende a piorar quanto maior a temperatura, então isso exige cuidado

Casos de uso no trabalho

Automação da classificação de artigos da BuzzFeed: usando a API do Claude, um esquema de classificação baseado em JSON e temperature 0.0, realizou atribuição precisa de categorias
Resumo de clusters de artigos: fornecendo 5 artigos semelhantes e pedindo um título e uma descrição em comum, implementou automação eficiente de resumo de clusters
Revisão de pontuação e guia de estilo: inserindo todo o guia de estilo no system prompt, conseguiu fazer julgamentos gramaticais com base na política editorial
Em cada tarefa, foi possível concluir um POC em poucas horas, comprovando economia de vários dias de trabalho em comparação com métodos anteriores

Escrita manual, crítica com LLM

Os posts de blog são escritos diretamente por ele, pois têm características estilísticas próprias que o LLM teria dificuldade em reproduzir
No entanto, pede ao LLM que escreva comentários críticos como se fosse um usuário do Hacker News, usando isso como ferramenta para encontrar falhas lógicas
Essa abordagem contribui para melhorar a qualidade do texto, mas não significa que o LLM substitua a escrita

Uso de LLMs na programação

Em tarefas complexas, porém repetitivas, como escrever expressões regulares e composição de imagens com Pillow, os LLMs contribuem bastante para aumentar a produtividade
Por outro lado, ao usar bibliotecas mais recentes como Polars, surgem problemas como o LLM confundir funções com pandas
Recomendações de código em tempo real, como as do Copilot, não são bem-vindas porque as frequentes trocas de contexto mental acabam atrapalhando a concentração
A posição defendida é que, a partir das ideias sugeridas pelo LLM, "aproveitar a ideia + ajustar manualmente" é melhor

Opinião sobre Agents, MCP e Vibe Coding

MCP e Agents melhoraram conceitualmente, mas na prática não conseguiram oferecer novos casos de uso
O Vibe Coding pode ser útil em projetos de hobby, mas é inadequado para produtos formais e não deve ser usado como forma de fugir da responsabilidade
O autor enfatiza a posição de que só código confiável é realmente profissional

Reflexões sobre a indústria e a ética dos LLMs

A afirmação de que "LLMs são inúteis" não reflete a realidade do uso prático; na verdade, os pontos centrais são o ROI de curto prazo e os problemas da estrutura da indústria
Modelos open source e infraestruturas alternativas (Cerebras, Groq etc.) podem suprir a demanda por LLMs mesmo que a OpenAI desapareça
No fim, LLMs são ferramentas que devem ser usadas de forma adequada ao objetivo, e tanto a glorificação incondicional quanto a rejeição total são perigosas

Encerramento

LLMs são uma ferramenta como tentar enfiar à força um pino quadrado em um buraco redondo; ou seja, podem ser ineficientes ou inovadores
O importante é o julgamento técnico para decidir quando, onde e como usar, e essa é a verdadeira competência na era dos LLMs

2 comentários

ifmkl 2025-05-07

Concordo com a última linha. Além disso, o que senti foi algo parecido: no fim das contas, IA e LLM são coisas que você usa e consegue aproveitar na medida da capacidade do próprio usuário.

GN⁺ 2025-05-06

Opiniões do Hacker News

Há opiniões sobre os aspectos confusos para programadores experientes ao trabalhar com LLMs
- pandas é a biblioteca padrão para manipular dados tabulares em Python e é usada desde 2008
- Recentemente, estão usando a nova biblioteca polars, e os LLMs frequentemente confundem funções de polars com funções de pandas, o que torna necessário conferir a documentação
- O motivo para não usar agentes de código é que eles são "distraentes", algo com que quem não gosta de autocompletar pode se identificar
- LLMs "puros" geram erros de código em tarefas de programação, mas configurações de LLM com agente também incluem código que estrutura a interação com o LLM
- Quando o LLM gera um erro de função, o programa não compila, o agente detecta isso e o LLM corrige repetidamente
Usam vibe coding ao criar mockups de UI ou sites
- Mesmo sem experiência em frontend, há valor em criar uma demo ao vivo 80% pronta para mostrar a outras pessoas
- Ainda não está pronto para produto real, mas é útil para prototipagem em discussões internas
Já foram usadas várias formas de obter os melhores resultados com LLMs
- Pensar em cenários para "enganar" os LLMs é ineficiente, e a eficácia pode variar muito dependendo da versão do modelo
Em perguntas complexas de código sobre bibliotecas menos populares, há mais cautela com a saída do LLM
- Nos últimos meses, usar a interface do ChatGPT tem sido eficaz para resolver perguntas de código sobre bibliotecas recentes
- Houve sucesso em atualizar código para uma nova biblioteca JavaScript
Também é usado o método de colar diretamente a documentação de uma nova biblioteca ou toda a base de código em um modelo de contexto longo
- Funciona bem para bibliotecas com menos de 50.000 tokens, e o Gemini 2.5 Pro lida bem até com algumas centenas de milhares de tokens
Foi bom que o autor incluiu logs de conversa
- Muitas pessoas não conseguem compartilhar por poderem expor informações, mas é importante sustentar alegações sobre o desempenho de LLMs
Não usam ChatGPT.com nem interfaces genéricas para usuários
- Usam a interface de backend de cada serviço de LLM para obter resultados melhores
- A OpenAI tende a limitar os modelos na UI do ChatGPT
Interfaces modernas de LLM que não permitem definir explicitamente um prompt de sistema usam seus próprios prompts de sistema
- O ChatGPT tem prompt de sistema, mas o Claude não
- Em modelos novos, a utilidade do prompt de sistema está diminuindo
Definir restrições específicas para o texto gerado funciona melhor no prompt de sistema do que no prompt do usuário
- LLMs entendem o conceito de 30 palavras, mas nem sempre executam bem esse tipo de tarefa
Usam a interface de backend de cada serviço de LLM
- Há curiosidade sobre usar wrappers personalizados para interagir com a API ou clientes já estabelecidos
Respostas em JSON nem sempre funcionam como esperado
- Para retornar JSON consistente, definem um esquema JSON para sempre devolver a mesma estrutura
Usam LLMs para aprender coisas novas ou escrever scripts curtos
- É interessante a técnica de inserir no LLM o texto de um post de blog e pedir que ele escreva cinco comentários fingindo ser um comentarista cínico do Hacker News