2 pontos por GN⁺ 3 일 전 | 1 comentários | Compartilhar no WhatsApp
  • A qualidade do trabalho do conhecimento é difícil de verificar sem refazer diretamente o resultado, então acaba-se dependendo de indicadores substitutos, como a aparência de completude, em vez da precisão real
  • Quando aparecem defeitos superficiais, como erro de data ou problema no rótulo de um gráfico, fica fácil descartar o resultado inteiro mesmo que isso não tenha relação com a conclusão principal; assim, o critério de julgamento também passa a pender para aspectos externos que podem ser verificados de forma barata, em vez de refletir a realidade
  • Os LLMs conseguem imitar muito bem um estilo e formato plausíveis sem reproduzir de fato a qualidade do trabalho, de modo que os procedimentos rituais de um relatório ou de um código podem permanecer, enquanto a qualidade subjacente está vazia
  • Se o critério medido for a qualidade superficial, torna-se racional deixar que o LLM escreva a maior parte da produção, e o próprio LLM também passa a ser otimizado para saídas que pareçam de alta qualidade, em vez de para veracidade ou utilidade
  • Como resultado, sistemas de dezenas de bilhões de dólares tendem a ser usados mais para a simulação do trabalho do que para o trabalho em si, e o fluxo de dar uma olhada rápida e marcar LGTM acaba se tornando uma automatização da Goodhart's law

A estrutura e os resultados que os LLMs mudaram

  • Os LLMs conseguem imitar muito bem um estilo e formato plausíveis sem reproduzir de fato a qualidade do trabalho
  • Um relatório de análise de mercado escrito com ChatGPT pode soar e parecer o entregável de uma grande empresa de consultoria
  • Um engenheiro de software pode gerar milhares de linhas de código que parecem de alta qualidade numa olhada rápida, e um colega pode então rodar outra revisão de código com IA para encontrar problemas e corrigi-los
  • Como resultado, os procedimentos rituais do trabalho são mantidos, mas a qualidade real por baixo deles pode estar vazia
  • Se o critério medido for a qualidade superficial, é racional que o trabalhador aja para parecer bem nesse critério, passando a deixar que o LLM escreva a maior parte da produção
  • O treinamento de LLMs também passa a ser orientado menos por a resposta ser verdadeira ou útil e mais por parecer algo que apareceria no corpus de treino ou satisfaria um avaliador de RLHF
  • No fim, o próprio LLM também é otimizado para produzir saídas que pareçam de alta qualidade
  • Sistemas construídos com investimentos de dezenas de bilhões de dólares acabam sendo usados para executar a simulação do trabalho, em vez do trabalho real
  • As empresas entram num estado em que competem para ver quem usa mais tokens
  • Quanto mais saídas de LLM um trabalhador produz, menos tempo resta para revisar essas saídas com profundidade
  • No fim, sobra apenas o fluxo de dar uma olhada rápida, marcar LGTM e abrir a próxima sessão do Claude Code

1 comentários

 
GN⁺ 3 일 전
Comentários do Hacker News
  • Não concordo totalmente nem com a ideia, mencionada no texto, de que era fácil estimar a qualidade do trabalho intelectual humano por meio de indicadores substitutos como erros de digitação ou pequenos erros, nem com a ideia de que o problema é que esses indícios não existem na IA
    Em termos conceituais, sempre houve muitos resultados humanos que eram péssimos, mas factualmente corretos e formalmente impecáveis
    Depois de 10 anos trabalhando com clientes corporativos, eu não diria de forma alguma que a era pre-LLM foi uma era de ouro do trabalho intelectual de alta qualidade; naquela época também já havia muita tralha que era um simulacro funcional de trabalho intelectual

    • Para mim, o problema maior é o desaparecimento da explicabilidade humana dos erros
      Resultados ruins de pessoas geralmente têm causas como ignorância, pressão de tempo ou objetivos egoístas, e essas causas costumam ser bastante consistentes
      Dá para perceber padrões de confiança, como um estagiário cuidadoso, mas sem conhecimento, ou um sênior que sabe muito, mas deixa passar o óbvio por falta de sono
      Já a IA pode implementar um artigo com perfeição e, na mesma execução, cometer um erro de nível calouro, criando a situação nada intuitiva de ter de fazer uma revisão assumindo incompetência total diante de uma máquina que às vezes demonstra competência extrema
    • A era pre-LLM não foi uma era de ouro da qualidade, mas é verdade que os LLMs eliminaram mais um sinal que ajudava a filtrar trabalho apressado e sem sentido
    • Isso nunca foi um detector positivo, e sim um filtro negativo
      Se havia erro de digitação ou erro factual básico, dava para eliminar facilmente, mas a ausência disso não significava alta qualidade
      Normalmente esse tipo de checagem é só a primeira barreira, não o processo inteiro, e, ao passar por ela, fica mais fácil enxergar os problemas reais
      É parecido com arrumar primeiro lint e estilo no código antes do reasoning
    • Dá para pegar frases típicas de IA mais chamativas, mas os outros 99% do texto gerado por IA, sem marcas evidentes, podem passar batido
      Só que a própria pessoa não sabe que esses 99% foram gerados por IA, então é fácil se iludir olhando apenas para 100% dos padrões que conseguiu identificar e achar que consegue filtrar todo texto de IA
    • Não acho que isso seja o ponto central
      Muito trabalho intelectual sempre foi um substituto de outra coisa
      Qualidade sem erros de digitação e com forma impecável era, muitas vezes, um sinal de respeito, como camisa branca passada e gravata, e também havia muitos documentos longos que na prática ninguém lia a fundo
      No fim, era uma forma simbólica de demonstrar sacrifício e submissão, e os LLMs estão destruindo esse sistema de sinais
      Se antes ninguém realmente avaliava a qualidade do conteúdo, então esse conteúdo talvez nunca tenha sido tão importante assim
  • Na academia, o problema do custo de revisão com IA já está aparecendo, mas de um jeito um pouco diferente do que o artigo descreve
    Mais do que o desaparecimento dos sinais de trabalho ruim, o ponto é que o custo de revisar com cuidado material produzido com IA está ficando grande demais para humanos suportarem sozinhos
    Por exemplo, periódicos de economia têm apêndices que chegam a centenas de páginas, e o tempo que uma pessoa pode dedicar à leitura é limitado
    Tenho curiosidade se periódicos de outras áreas também estão sendo pressionados não só pelo aumento no número de submissões, mas também pela intensidade da revisão necessária para verificar cada artigo

    • Para ser justo, em muitas áreas acadêmicas, a partir do nível de mestrado ou acima, a própria avaliação já exige alto grau de especialização
      Abaixo desse nível, muitas vezes é quase impossível distinguir entre o que está certo e o que apenas parece certo
  • Tenho a sensação de que, ao usar IA, estou fazendo cargo cult do entendimento
    Reproduzo a superfície de ter entendido algo, enquanto tiro de mim mesmo o tempo e o esforço necessários para realmente entender

    • É algo que sempre penso ao observar um colega com quem trabalho: ele quase só enxerga cenários de uso de IA como uma fantasia de Jarvis pessoal
      Acredita que, se alimentar o Claude com Snowflake Cortex, código integrado, documentação e tickets do Jira, vai poder perguntar qualquer coisa e tudo ficará muito melhor
      Mas essa obsessão não gerou grandes entregas, e em várias ocasiões ele já sofreu bastante na prática com as imperfeições da tecnologia
      Todo mundo fala de agentic workflow e da visão de uma enorme wiki interna, mas eu continuo entregando porque uso IA para acelerar bastante a velocidade de entrega, sem gastar tempo em aventuras grandiosas
      Também vejo a ironia de pessoas que antes criticavam a adoção de chatbots na empresa agora queimarem tokens juntando trilhões de arquivos .md e arquivos de skill para criar seus próprios chatbots
      O que realmente me preocupa é a perda de conhecimento institucional real nesse atalho
      Pedidos simples de exemplo ou perguntas para aprender conceitos tudo bem, mas prompts do tipo “avalie as ferramentas e a infraestrutura atuais, aumente em 5x a velocidade de deploy, faça pesquisa na web e ainda produza uma proposta de adoção organizacional com análise de custo-benefício de cinco anos” acabam enfraquecendo a própria pessoa
      Hoje em dia, todo mundo sai jogando por aí propostas feitas pelo Claude, e pula a etapa de investigar um pouco por conta própria ou explorar junto com um arquiteto ou engenheiro sênior
      O resultado é que muita coisa é entendida só superficialmente; quando você aprofunda, a pessoa não consegue explicar bem, e passa a acreditar na resposta da IA como se fosse uma estratégia definitiva, resistindo a questionamentos
      Até oportunidades de aprender com pessoas mais experientes deixam de ser vistas como experiências de aprendizado
      No fim, continuo achando que o cérebro humano ainda é uma das tecnologias mais impressionantes que existem, e isso me faz perguntar por que estamos tão empenhados em construir essa biblioteca artificial gigantesca fora de nós mesmos
    • Aqui eu diria que não é tanto um cargo cult do entendimento, mas um cargo cult da perspectiva gerencial
      Como Bret Devereaux diz em sua crítica a Game Of Thrones, uma visão de mundo a partir da elite só parece plausível e utópica para a própria elite
      Esse tipo de bolha desconectada do trabalho real vai acabar estourando feio e, se para uma população que perdeu empregos por causa da IA a resposta for algo como “então comam brioche”, dá para imaginar uma reação de nível Revolução Francesa
    • Por outro lado, a IA pode de fato fazer coisas por mim sem que eu as entenda
      Mas, como ferramenta para tentar entender algo em profundidade, poucas coisas são tão boas quanto a IA
  • No fim das contas, entender algo é quase o mesmo que fazer você mesmo
    Não entender está tudo bem, mas, nesse caso, com ou sem indicadores substitutos, no fim você não tem escolha a não ser confiar no entendimento de outra pessoa
    Ir na direção de trabalhar menos e confiar mais funciona até certo ponto, mas, depois dele, o trabalho do futuro fica em risco
    simulacrum é uma palavra realmente excelente

    • O conceito de Simulacrum vem de Baudrillard, e seu ensaio Simulation and Simulacra ajuda bastante a entender por que a economia moderna é tão estranha
  • Talvez por isso os gerentes intermediários tenham parecido os primeiros verdadeiros fiéis do maximalismo de LLM
    A gerência intermediária tem muitos incentivos para continuar abstraindo o trabalho intelectual, além da habilidade real exigida pelo papel, e esse nível de abstração parece ser particularmente bem descrito no embedding space

  • Código gerado por IA muitas vezes parece pior do que realmente é
    Ele tende a ser prolixo demais, confuso e cheio de fallbacks, então, quando dá problema, a falha vai escorrendo por inúmeros try/catch e joga o stack trace em lugares absurdos
    Ainda assim, olhando só para a funcionalidade pura, muitas vezes ele acaba funcionando melhor do que código escrito por humanos com aparência semelhante

    • Mesmo assim, o código descrito dessa forma continua sendo código ruim
      Porque é difícil de raciocinar sobre ele, tanto para pessoas quanto para LLMs
  • Queria ver mais textos de blog nesse estilo
    Tem um tamanho adequado, transmite bem a mensagem e ainda tem um lado narrativo
    Hoje em dia há tanto lixo de IA gerado por LLM com comprimento de romance que isso acaba sendo ainda mais bem-vindo

  • Para muita gente da indústria, isso parece um movimento bastante óbvio
    O problema é que há dinheiro demais envolvido, então os grandes players continuam empurrando o que querem

  • Isso me faz imaginar que partículas subatômicas são na verdade universos inteiros, e que suas propriedades refletem os seres que governaram esses universos e os vestígios da automação que continuou rodando mesmo depois de seu desaparecimento
    Algo como máquinas automáticas que colhem entropia e continuam se replicando
    Estamos criando agora uma força maior do que nós, e talvez em algum momento cheguemos a um ponto sem volta

    • Não entendi isso totalmente, mas a ideia me parece fascinante
      Faz pensar em inúmeros universos e civilizações subatômicos surgindo e desaparecendo, às vezes sendo consumidos por tecnologias autônomas parecidas com inteligência, e isso, em escala macro, aparecendo como o comportamento das partículas
      Agora nós também estamos, no fim, criando uma partícula, e talvez nossas escolhas coletivas tenham um efeito minúsculo, mas significativo, sobre o universo superior ao qual pertencemos
  • A saída de alguém sempre vira a entrada de outra pessoa
    Se você aumenta o volume com LLM, a pessoa seguinte também vai usar LLM para parsear isso e produzir a própria saída
    Isso vai se encadeando até que, quando o consumidor final reclama, ninguém mais consegue apontar exatamente onde deu errado

    • Claro, nessa hora vão dizer que foi uso incorreto por parte do consumidor final
      Afinal, só o consumidor final está visível; todo o resto está escondido atrás de sete camadas de proxy