O simulacro do trabalho do conhecimento
(blog.happyfellow.dev)- A qualidade do trabalho do conhecimento é difícil de verificar sem refazer diretamente o resultado, então acaba-se dependendo de indicadores substitutos, como a aparência de completude, em vez da precisão real
- Quando aparecem defeitos superficiais, como erro de data ou problema no rótulo de um gráfico, fica fácil descartar o resultado inteiro mesmo que isso não tenha relação com a conclusão principal; assim, o critério de julgamento também passa a pender para aspectos externos que podem ser verificados de forma barata, em vez de refletir a realidade
- Os LLMs conseguem imitar muito bem um estilo e formato plausíveis sem reproduzir de fato a qualidade do trabalho, de modo que os procedimentos rituais de um relatório ou de um código podem permanecer, enquanto a qualidade subjacente está vazia
- Se o critério medido for a qualidade superficial, torna-se racional deixar que o LLM escreva a maior parte da produção, e o próprio LLM também passa a ser otimizado para saídas que pareçam de alta qualidade, em vez de para veracidade ou utilidade
- Como resultado, sistemas de dezenas de bilhões de dólares tendem a ser usados mais para a simulação do trabalho do que para o trabalho em si, e o fluxo de dar uma olhada rápida e marcar LGTM acaba se tornando uma automatização da Goodhart's law
A estrutura e os resultados que os LLMs mudaram
- Os LLMs conseguem imitar muito bem um estilo e formato plausíveis sem reproduzir de fato a qualidade do trabalho
- Um relatório de análise de mercado escrito com ChatGPT pode soar e parecer o entregável de uma grande empresa de consultoria
- Um engenheiro de software pode gerar milhares de linhas de código que parecem de alta qualidade numa olhada rápida, e um colega pode então rodar outra revisão de código com IA para encontrar problemas e corrigi-los
- Como resultado, os procedimentos rituais do trabalho são mantidos, mas a qualidade real por baixo deles pode estar vazia
- Se o critério medido for a qualidade superficial, é racional que o trabalhador aja para parecer bem nesse critério, passando a deixar que o LLM escreva a maior parte da produção
- O treinamento de LLMs também passa a ser orientado menos por a resposta ser verdadeira ou útil e mais por parecer algo que apareceria no corpus de treino ou satisfaria um avaliador de RLHF
- No fim, o próprio LLM também é otimizado para produzir saídas que pareçam de alta qualidade
- Sistemas construídos com investimentos de dezenas de bilhões de dólares acabam sendo usados para executar a simulação do trabalho, em vez do trabalho real
- As empresas entram num estado em que competem para ver quem usa mais tokens
- Quanto mais saídas de LLM um trabalhador produz, menos tempo resta para revisar essas saídas com profundidade
- No fim, sobra apenas o fluxo de dar uma olhada rápida, marcar LGTM e abrir a próxima sessão do Claude Code
1 comentários
Comentários do Hacker News
Não concordo totalmente nem com a ideia, mencionada no texto, de que era fácil estimar a qualidade do trabalho intelectual humano por meio de indicadores substitutos como erros de digitação ou pequenos erros, nem com a ideia de que o problema é que esses indícios não existem na IA
Em termos conceituais, sempre houve muitos resultados humanos que eram péssimos, mas factualmente corretos e formalmente impecáveis
Depois de 10 anos trabalhando com clientes corporativos, eu não diria de forma alguma que a era pre-LLM foi uma era de ouro do trabalho intelectual de alta qualidade; naquela época também já havia muita tralha que era um simulacro funcional de trabalho intelectual
Resultados ruins de pessoas geralmente têm causas como ignorância, pressão de tempo ou objetivos egoístas, e essas causas costumam ser bastante consistentes
Dá para perceber padrões de confiança, como um estagiário cuidadoso, mas sem conhecimento, ou um sênior que sabe muito, mas deixa passar o óbvio por falta de sono
Já a IA pode implementar um artigo com perfeição e, na mesma execução, cometer um erro de nível calouro, criando a situação nada intuitiva de ter de fazer uma revisão assumindo incompetência total diante de uma máquina que às vezes demonstra competência extrema
Se havia erro de digitação ou erro factual básico, dava para eliminar facilmente, mas a ausência disso não significava alta qualidade
Normalmente esse tipo de checagem é só a primeira barreira, não o processo inteiro, e, ao passar por ela, fica mais fácil enxergar os problemas reais
É parecido com arrumar primeiro lint e estilo no código antes do reasoning
Só que a própria pessoa não sabe que esses 99% foram gerados por IA, então é fácil se iludir olhando apenas para 100% dos padrões que conseguiu identificar e achar que consegue filtrar todo texto de IA
Muito trabalho intelectual sempre foi um substituto de outra coisa
Qualidade sem erros de digitação e com forma impecável era, muitas vezes, um sinal de respeito, como camisa branca passada e gravata, e também havia muitos documentos longos que na prática ninguém lia a fundo
No fim, era uma forma simbólica de demonstrar sacrifício e submissão, e os LLMs estão destruindo esse sistema de sinais
Se antes ninguém realmente avaliava a qualidade do conteúdo, então esse conteúdo talvez nunca tenha sido tão importante assim
Na academia, o problema do custo de revisão com IA já está aparecendo, mas de um jeito um pouco diferente do que o artigo descreve
Mais do que o desaparecimento dos sinais de trabalho ruim, o ponto é que o custo de revisar com cuidado material produzido com IA está ficando grande demais para humanos suportarem sozinhos
Por exemplo, periódicos de economia têm apêndices que chegam a centenas de páginas, e o tempo que uma pessoa pode dedicar à leitura é limitado
Tenho curiosidade se periódicos de outras áreas também estão sendo pressionados não só pelo aumento no número de submissões, mas também pela intensidade da revisão necessária para verificar cada artigo
Abaixo desse nível, muitas vezes é quase impossível distinguir entre o que está certo e o que apenas parece certo
Tenho a sensação de que, ao usar IA, estou fazendo cargo cult do entendimento
Reproduzo a superfície de ter entendido algo, enquanto tiro de mim mesmo o tempo e o esforço necessários para realmente entender
Acredita que, se alimentar o Claude com Snowflake Cortex, código integrado, documentação e tickets do Jira, vai poder perguntar qualquer coisa e tudo ficará muito melhor
Mas essa obsessão não gerou grandes entregas, e em várias ocasiões ele já sofreu bastante na prática com as imperfeições da tecnologia
Todo mundo fala de agentic workflow e da visão de uma enorme wiki interna, mas eu continuo entregando porque uso IA para acelerar bastante a velocidade de entrega, sem gastar tempo em aventuras grandiosas
Também vejo a ironia de pessoas que antes criticavam a adoção de chatbots na empresa agora queimarem tokens juntando trilhões de arquivos
.mde arquivos de skill para criar seus próprios chatbotsO que realmente me preocupa é a perda de conhecimento institucional real nesse atalho
Pedidos simples de exemplo ou perguntas para aprender conceitos tudo bem, mas prompts do tipo “avalie as ferramentas e a infraestrutura atuais, aumente em 5x a velocidade de deploy, faça pesquisa na web e ainda produza uma proposta de adoção organizacional com análise de custo-benefício de cinco anos” acabam enfraquecendo a própria pessoa
Hoje em dia, todo mundo sai jogando por aí propostas feitas pelo Claude, e pula a etapa de investigar um pouco por conta própria ou explorar junto com um arquiteto ou engenheiro sênior
O resultado é que muita coisa é entendida só superficialmente; quando você aprofunda, a pessoa não consegue explicar bem, e passa a acreditar na resposta da IA como se fosse uma estratégia definitiva, resistindo a questionamentos
Até oportunidades de aprender com pessoas mais experientes deixam de ser vistas como experiências de aprendizado
No fim, continuo achando que o cérebro humano ainda é uma das tecnologias mais impressionantes que existem, e isso me faz perguntar por que estamos tão empenhados em construir essa biblioteca artificial gigantesca fora de nós mesmos
Como Bret Devereaux diz em sua crítica a Game Of Thrones, uma visão de mundo a partir da elite só parece plausível e utópica para a própria elite
Esse tipo de bolha desconectada do trabalho real vai acabar estourando feio e, se para uma população que perdeu empregos por causa da IA a resposta for algo como “então comam brioche”, dá para imaginar uma reação de nível Revolução Francesa
Mas, como ferramenta para tentar entender algo em profundidade, poucas coisas são tão boas quanto a IA
No fim das contas, entender algo é quase o mesmo que fazer você mesmo
Não entender está tudo bem, mas, nesse caso, com ou sem indicadores substitutos, no fim você não tem escolha a não ser confiar no entendimento de outra pessoa
Ir na direção de trabalhar menos e confiar mais funciona até certo ponto, mas, depois dele, o trabalho do futuro fica em risco
simulacrumé uma palavra realmente excelenteTalvez por isso os gerentes intermediários tenham parecido os primeiros verdadeiros fiéis do maximalismo de LLM
A gerência intermediária tem muitos incentivos para continuar abstraindo o trabalho intelectual, além da habilidade real exigida pelo papel, e esse nível de abstração parece ser particularmente bem descrito no embedding space
Código gerado por IA muitas vezes parece pior do que realmente é
Ele tende a ser prolixo demais, confuso e cheio de fallbacks, então, quando dá problema, a falha vai escorrendo por inúmeros try/catch e joga o stack trace em lugares absurdos
Ainda assim, olhando só para a funcionalidade pura, muitas vezes ele acaba funcionando melhor do que código escrito por humanos com aparência semelhante
Porque é difícil de raciocinar sobre ele, tanto para pessoas quanto para LLMs
Queria ver mais textos de blog nesse estilo
Tem um tamanho adequado, transmite bem a mensagem e ainda tem um lado narrativo
Hoje em dia há tanto lixo de IA gerado por LLM com comprimento de romance que isso acaba sendo ainda mais bem-vindo
Para muita gente da indústria, isso parece um movimento bastante óbvio
O problema é que há dinheiro demais envolvido, então os grandes players continuam empurrando o que querem
Isso me faz imaginar que partículas subatômicas são na verdade universos inteiros, e que suas propriedades refletem os seres que governaram esses universos e os vestígios da automação que continuou rodando mesmo depois de seu desaparecimento
Algo como máquinas automáticas que colhem entropia e continuam se replicando
Estamos criando agora uma força maior do que nós, e talvez em algum momento cheguemos a um ponto sem volta
Faz pensar em inúmeros universos e civilizações subatômicos surgindo e desaparecendo, às vezes sendo consumidos por tecnologias autônomas parecidas com inteligência, e isso, em escala macro, aparecendo como o comportamento das partículas
Agora nós também estamos, no fim, criando uma partícula, e talvez nossas escolhas coletivas tenham um efeito minúsculo, mas significativo, sobre o universo superior ao qual pertencemos
A saída de alguém sempre vira a entrada de outra pessoa
Se você aumenta o volume com LLM, a pessoa seguinte também vai usar LLM para parsear isso e produzir a própria saída
Isso vai se encadeando até que, quando o consumidor final reclama, ninguém mais consegue apontar exatamente onde deu errado
Afinal, só o consumidor final está visível; todo o resto está escondido atrás de sete camadas de proxy