29 pontos por GN⁺ 2025-05-06 | 2 comentários | Compartilhar no WhatsApp
  • O autor afirma que, embora pesquise LLMs e tecnologias de geração de texto há mais de 10 anos, inesperadamente não usa LLMs com tanta frequência no dia a dia
  • Ao usar LLMs, dá importância a controle cuidadoso, como prompt engineering, configuração de system prompt e ajuste de temperatura, e prefere uma abordagem via API em vez de interfaces frontend genéricas
  • Em tarefas da BuzzFeed como rotulagem de dados, resumo de clusters de artigos e revisão de guia de estilo, usou LLMs para resolver problemas concretos, comprovando grande economia de tempo
  • Não usa LLMs para escrever, mas os utiliza para validar a lógica dos textos por meio de um teste de perspectiva crítica com comentários fictícios no estilo do Hacker News
  • LLMs são úteis como apoio à programação, mas para tarefas complexas ou que exigem confiabilidade prefere implementar diretamente, mantendo uma postura cética em relação a agentes e vibe coding

A distância entre mim e os LLMs

  • O autor é um cientista de dados com ampla experiência no uso de ferramentas de IA generativa, incluindo geração de texto com RNN, fine-tuning de GPT-2 e experimentos com GPT-3/ChatGPT
  • Ainda assim, os casos em que os usa diretamente com frequência são raros; sua decisão de usá-los segue uma abordagem instrumental, dependendo da natureza e da necessidade da tarefa

Como controla os LLMs

  • O ponto central do uso de LLMs é induzir a saída desejada por meio de prompt engineering
  • Em vez de um frontend genérico (ChatGPT.com), prefere chamar a API diretamente ou usar uma UI de backend, com preferência especial pela API do Claude Sonnet
  • Ajusta o equilíbrio entre criatividade e determinismo com system prompts e controle de temperatura, normalmente definindo 0.0 ~ 0.3 para garantir previsibilidade na saída
  • O problema de hallucination (geração de conteúdo que não corresponde aos fatos) tende a piorar quanto maior a temperatura, então isso exige cuidado

Casos de uso no trabalho

  • Automação da classificação de artigos da BuzzFeed: usando a API do Claude, um esquema de classificação baseado em JSON e temperature 0.0, realizou atribuição precisa de categorias
  • Resumo de clusters de artigos: fornecendo 5 artigos semelhantes e pedindo um título e uma descrição em comum, implementou automação eficiente de resumo de clusters
  • Revisão de pontuação e guia de estilo: inserindo todo o guia de estilo no system prompt, conseguiu fazer julgamentos gramaticais com base na política editorial
  • Em cada tarefa, foi possível concluir um POC em poucas horas, comprovando economia de vários dias de trabalho em comparação com métodos anteriores

Escrita manual, crítica com LLM

  • Os posts de blog são escritos diretamente por ele, pois têm características estilísticas próprias que o LLM teria dificuldade em reproduzir
  • No entanto, pede ao LLM que escreva comentários críticos como se fosse um usuário do Hacker News, usando isso como ferramenta para encontrar falhas lógicas
  • Essa abordagem contribui para melhorar a qualidade do texto, mas não significa que o LLM substitua a escrita

Uso de LLMs na programação

  • Em tarefas complexas, porém repetitivas, como escrever expressões regulares e composição de imagens com Pillow, os LLMs contribuem bastante para aumentar a produtividade
  • Por outro lado, ao usar bibliotecas mais recentes como Polars, surgem problemas como o LLM confundir funções com pandas
  • Recomendações de código em tempo real, como as do Copilot, não são bem-vindas porque as frequentes trocas de contexto mental acabam atrapalhando a concentração
  • A posição defendida é que, a partir das ideias sugeridas pelo LLM, "aproveitar a ideia + ajustar manualmente" é melhor

Opinião sobre Agents, MCP e Vibe Coding

  • MCP e Agents melhoraram conceitualmente, mas na prática não conseguiram oferecer novos casos de uso
  • O Vibe Coding pode ser útil em projetos de hobby, mas é inadequado para produtos formais e não deve ser usado como forma de fugir da responsabilidade
  • O autor enfatiza a posição de que só código confiável é realmente profissional

Reflexões sobre a indústria e a ética dos LLMs

  • A afirmação de que "LLMs são inúteis" não reflete a realidade do uso prático; na verdade, os pontos centrais são o ROI de curto prazo e os problemas da estrutura da indústria
  • Modelos open source e infraestruturas alternativas (Cerebras, Groq etc.) podem suprir a demanda por LLMs mesmo que a OpenAI desapareça
  • No fim, LLMs são ferramentas que devem ser usadas de forma adequada ao objetivo, e tanto a glorificação incondicional quanto a rejeição total são perigosas

Encerramento

  • LLMs são uma ferramenta como tentar enfiar à força um pino quadrado em um buraco redondo; ou seja, podem ser ineficientes ou inovadores
  • O importante é o julgamento técnico para decidir quando, onde e como usar, e essa é a verdadeira competência na era dos LLMs

2 comentários

 
ifmkl 2025-05-07

Concordo com a última linha. Além disso, o que senti foi algo parecido: no fim das contas, IA e LLM são coisas que você usa e consegue aproveitar na medida da capacidade do próprio usuário.

 
GN⁺ 2025-05-06
Opiniões do Hacker News
  • Há opiniões sobre os aspectos confusos para programadores experientes ao trabalhar com LLMs

    • pandas é a biblioteca padrão para manipular dados tabulares em Python e é usada desde 2008
    • Recentemente, estão usando a nova biblioteca polars, e os LLMs frequentemente confundem funções de polars com funções de pandas, o que torna necessário conferir a documentação
    • O motivo para não usar agentes de código é que eles são "distraentes", algo com que quem não gosta de autocompletar pode se identificar
    • LLMs "puros" geram erros de código em tarefas de programação, mas configurações de LLM com agente também incluem código que estrutura a interação com o LLM
    • Quando o LLM gera um erro de função, o programa não compila, o agente detecta isso e o LLM corrige repetidamente
  • Usam vibe coding ao criar mockups de UI ou sites

    • Mesmo sem experiência em frontend, há valor em criar uma demo ao vivo 80% pronta para mostrar a outras pessoas
    • Ainda não está pronto para produto real, mas é útil para prototipagem em discussões internas
  • Já foram usadas várias formas de obter os melhores resultados com LLMs

    • Pensar em cenários para "enganar" os LLMs é ineficiente, e a eficácia pode variar muito dependendo da versão do modelo
  • Em perguntas complexas de código sobre bibliotecas menos populares, há mais cautela com a saída do LLM

    • Nos últimos meses, usar a interface do ChatGPT tem sido eficaz para resolver perguntas de código sobre bibliotecas recentes
    • Houve sucesso em atualizar código para uma nova biblioteca JavaScript
  • Também é usado o método de colar diretamente a documentação de uma nova biblioteca ou toda a base de código em um modelo de contexto longo

    • Funciona bem para bibliotecas com menos de 50.000 tokens, e o Gemini 2.5 Pro lida bem até com algumas centenas de milhares de tokens
  • Foi bom que o autor incluiu logs de conversa

    • Muitas pessoas não conseguem compartilhar por poderem expor informações, mas é importante sustentar alegações sobre o desempenho de LLMs
  • Não usam ChatGPT.com nem interfaces genéricas para usuários

    • Usam a interface de backend de cada serviço de LLM para obter resultados melhores
    • A OpenAI tende a limitar os modelos na UI do ChatGPT
  • Interfaces modernas de LLM que não permitem definir explicitamente um prompt de sistema usam seus próprios prompts de sistema

    • O ChatGPT tem prompt de sistema, mas o Claude não
    • Em modelos novos, a utilidade do prompt de sistema está diminuindo
  • Definir restrições específicas para o texto gerado funciona melhor no prompt de sistema do que no prompt do usuário

    • LLMs entendem o conceito de 30 palavras, mas nem sempre executam bem esse tipo de tarefa
  • Usam a interface de backend de cada serviço de LLM

    • Há curiosidade sobre usar wrappers personalizados para interagir com a API ou clientes já estabelecidos
  • Respostas em JSON nem sempre funcionam como esperado

    • Para retornar JSON consistente, definem um esquema JSON para sempre devolver a mesma estrutura
  • Usam LLMs para aprender coisas novas ou escrever scripts curtos

    • É interessante a técnica de inserir no LLM o texto de um post de blog e pedir que ele escreva cinco comentários fingindo ser um comentarista cínico do Hacker News