2 pontos por GN⁺ 14 일 전 | 1 comentários | Compartilhar no WhatsApp
  • À medida que os LLMs imitam perfeitamente a qualidade superficial, as métricas substitutas (proxy measures) usadas para julgar a qualidade real do trabalho do conhecimento estão sendo neutralizadas
  • Como é difícil avaliar a qualidade intrínseca do trabalho do conhecimento, há muito tempo se depende de métricas substitutas como a completude formal de documentos, mas os LLMs conseguem passar por essas métricas com facilidade
  • Códigos e relatórios escritos por IA parecem profissionais à primeira vista, mas há uma estrutura em que sua precisão ou utilidade real passa sem ser verificada
  • O próprio LLM também é treinado não para "estar certo", mas para "parecer plausível", incorporando assim o mesmo problema de métricas substitutas
  • O alerta é que sistemas criados com investimentos de dezenas de bilhões de dólares estão sendo usados não para o trabalho real, mas como ferramentas que executam o simulacro do trabalho

O papel e os limites das métricas substitutas (Proxy Measure)

  • Ao receber um relatório de análise de mercado, é comum descartar o documento inteiro apenas por falhas superficiais como erro de data, typos ou gráficos duplicados
  • O que realmente importa é se o relatório reflete a realidade e leva a boas decisões, mas o custo de verificar isso diretamente é alto
  • A qualidade superficial tem baixo custo de verificação e uma correlação suficiente com a qualidade real, por isso vinha funcionando como métrica substituta
  • Esse problema existe em todo trabalho do conhecimento, e como julgar objetivamente a qualidade do trabalho de outras pessoas exige muito esforço, há uma estrutura de forte dependência de métricas substitutas

O mecanismo pelo qual os LLMs neutralizaram as métricas substitutas

  • As métricas substitutas vinham servindo para conter incentivos desalinhados (misaligned incentives), mas os LLMs romperam isso
  • LLMs são excelentes em simular estilo de escrita sem reproduzir a qualidade real do trabalho
  • Se você pedir ao ChatGPT um relatório de análise de mercado, o resultado parecerá ter sido escrito por um especialista de uma consultoria de primeira linha
  • Quando um engenheiro de software usa IA para escrever milhares de linhas de código, num exame rápido de poucos segundos isso parece código de alta qualidade
    • Colegas também delegam o code review à IA e tratam mecanicamente os problemas encontrados, de modo que só o ritual do trabalho é mantido, sem garantia da qualidade substancial

O mesmo problema embutido no próprio LLM

  • O próprio processo de treinamento de LLMs não avalia se a resposta é "verdadeira" ou "útil"
  • O critério de treinamento corresponde a "é uma resposta que provavelmente apareceria nos dados de treino" ou "é uma resposta que satisfaz o avaliador de RLHF"
  • Como resultado, os LLMs são otimizados para produzir saídas que parecem artefatos de alta qualidade, e sua capacidade de otimização nisso é muito alta

Alerta sobre a situação atual

  • Sistemas criados com dezenas de bilhões de dólares estão sendo usados para executar o simulacro (ilusão) do trabalho
  • As empresas estão competindo para ficar em primeiro lugar no ranking de consumo de tokens
  • Quanto mais os trabalhadores produzem saídas de LLM, menos tempo dedicam a examinar essas saídas em profundidade
  • No fim, só resta passar os olhos, marcar "LGTM" e abrir a 17ª sessão do Claude Code

1 comentários

 
GN⁺ 14 일 전
Comentários do Hacker News
  • Não concordo totalmente nem com a ideia, mencionada no texto, de que era fácil estimar a qualidade do trabalho intelectual humano por meio de indicadores substitutos como erros de digitação ou pequenos erros, nem com a ideia de que o problema é que esses indícios não existem na IA
    Em termos conceituais, sempre houve muitos resultados humanos que eram péssimos, mas factualmente corretos e formalmente impecáveis
    Depois de 10 anos trabalhando com clientes corporativos, eu não diria de forma alguma que a era pre-LLM foi uma era de ouro do trabalho intelectual de alta qualidade; naquela época também já havia muita tralha que era um simulacro funcional de trabalho intelectual

    • Para mim, o problema maior é o desaparecimento da explicabilidade humana dos erros
      Resultados ruins de pessoas geralmente têm causas como ignorância, pressão de tempo ou objetivos egoístas, e essas causas costumam ser bastante consistentes
      Dá para perceber padrões de confiança, como um estagiário cuidadoso, mas sem conhecimento, ou um sênior que sabe muito, mas deixa passar o óbvio por falta de sono
      Já a IA pode implementar um artigo com perfeição e, na mesma execução, cometer um erro de nível calouro, criando a situação nada intuitiva de ter de fazer uma revisão assumindo incompetência total diante de uma máquina que às vezes demonstra competência extrema
    • A era pre-LLM não foi uma era de ouro da qualidade, mas é verdade que os LLMs eliminaram mais um sinal que ajudava a filtrar trabalho apressado e sem sentido
    • Isso nunca foi um detector positivo, e sim um filtro negativo
      Se havia erro de digitação ou erro factual básico, dava para eliminar facilmente, mas a ausência disso não significava alta qualidade
      Normalmente esse tipo de checagem é só a primeira barreira, não o processo inteiro, e, ao passar por ela, fica mais fácil enxergar os problemas reais
      É parecido com arrumar primeiro lint e estilo no código antes do reasoning
    • Dá para pegar frases típicas de IA mais chamativas, mas os outros 99% do texto gerado por IA, sem marcas evidentes, podem passar batido
      Só que a própria pessoa não sabe que esses 99% foram gerados por IA, então é fácil se iludir olhando apenas para 100% dos padrões que conseguiu identificar e achar que consegue filtrar todo texto de IA
    • Não acho que isso seja o ponto central
      Muito trabalho intelectual sempre foi um substituto de outra coisa
      Qualidade sem erros de digitação e com forma impecável era, muitas vezes, um sinal de respeito, como camisa branca passada e gravata, e também havia muitos documentos longos que na prática ninguém lia a fundo
      No fim, era uma forma simbólica de demonstrar sacrifício e submissão, e os LLMs estão destruindo esse sistema de sinais
      Se antes ninguém realmente avaliava a qualidade do conteúdo, então esse conteúdo talvez nunca tenha sido tão importante assim
  • Na academia, o problema do custo de revisão com IA já está aparecendo, mas de um jeito um pouco diferente do que o artigo descreve
    Mais do que o desaparecimento dos sinais de trabalho ruim, o ponto é que o custo de revisar com cuidado material produzido com IA está ficando grande demais para humanos suportarem sozinhos
    Por exemplo, periódicos de economia têm apêndices que chegam a centenas de páginas, e o tempo que uma pessoa pode dedicar à leitura é limitado
    Tenho curiosidade se periódicos de outras áreas também estão sendo pressionados não só pelo aumento no número de submissões, mas também pela intensidade da revisão necessária para verificar cada artigo

    • Para ser justo, em muitas áreas acadêmicas, a partir do nível de mestrado ou acima, a própria avaliação já exige alto grau de especialização
      Abaixo desse nível, muitas vezes é quase impossível distinguir entre o que está certo e o que apenas parece certo
  • Tenho a sensação de que, ao usar IA, estou fazendo cargo cult do entendimento
    Reproduzo a superfície de ter entendido algo, enquanto tiro de mim mesmo o tempo e o esforço necessários para realmente entender

    • É algo que sempre penso ao observar um colega com quem trabalho: ele quase só enxerga cenários de uso de IA como uma fantasia de Jarvis pessoal
      Acredita que, se alimentar o Claude com Snowflake Cortex, código integrado, documentação e tickets do Jira, vai poder perguntar qualquer coisa e tudo ficará muito melhor
      Mas essa obsessão não gerou grandes entregas, e em várias ocasiões ele já sofreu bastante na prática com as imperfeições da tecnologia
      Todo mundo fala de agentic workflow e da visão de uma enorme wiki interna, mas eu continuo entregando porque uso IA para acelerar bastante a velocidade de entrega, sem gastar tempo em aventuras grandiosas
      Também vejo a ironia de pessoas que antes criticavam a adoção de chatbots na empresa agora queimarem tokens juntando trilhões de arquivos .md e arquivos de skill para criar seus próprios chatbots
      O que realmente me preocupa é a perda de conhecimento institucional real nesse atalho
      Pedidos simples de exemplo ou perguntas para aprender conceitos tudo bem, mas prompts do tipo “avalie as ferramentas e a infraestrutura atuais, aumente em 5x a velocidade de deploy, faça pesquisa na web e ainda produza uma proposta de adoção organizacional com análise de custo-benefício de cinco anos” acabam enfraquecendo a própria pessoa
      Hoje em dia, todo mundo sai jogando por aí propostas feitas pelo Claude, e pula a etapa de investigar um pouco por conta própria ou explorar junto com um arquiteto ou engenheiro sênior
      O resultado é que muita coisa é entendida só superficialmente; quando você aprofunda, a pessoa não consegue explicar bem, e passa a acreditar na resposta da IA como se fosse uma estratégia definitiva, resistindo a questionamentos
      Até oportunidades de aprender com pessoas mais experientes deixam de ser vistas como experiências de aprendizado
      No fim, continuo achando que o cérebro humano ainda é uma das tecnologias mais impressionantes que existem, e isso me faz perguntar por que estamos tão empenhados em construir essa biblioteca artificial gigantesca fora de nós mesmos
    • Aqui eu diria que não é tanto um cargo cult do entendimento, mas um cargo cult da perspectiva gerencial
      Como Bret Devereaux diz em sua crítica a Game Of Thrones, uma visão de mundo a partir da elite só parece plausível e utópica para a própria elite
      Esse tipo de bolha desconectada do trabalho real vai acabar estourando feio e, se para uma população que perdeu empregos por causa da IA a resposta for algo como “então comam brioche”, dá para imaginar uma reação de nível Revolução Francesa
    • Por outro lado, a IA pode de fato fazer coisas por mim sem que eu as entenda
      Mas, como ferramenta para tentar entender algo em profundidade, poucas coisas são tão boas quanto a IA
  • No fim das contas, entender algo é quase o mesmo que fazer você mesmo
    Não entender está tudo bem, mas, nesse caso, com ou sem indicadores substitutos, no fim você não tem escolha a não ser confiar no entendimento de outra pessoa
    Ir na direção de trabalhar menos e confiar mais funciona até certo ponto, mas, depois dele, o trabalho do futuro fica em risco
    simulacrum é uma palavra realmente excelente

    • O conceito de Simulacrum vem de Baudrillard, e seu ensaio Simulation and Simulacra ajuda bastante a entender por que a economia moderna é tão estranha
  • Talvez por isso os gerentes intermediários tenham parecido os primeiros verdadeiros fiéis do maximalismo de LLM
    A gerência intermediária tem muitos incentivos para continuar abstraindo o trabalho intelectual, além da habilidade real exigida pelo papel, e esse nível de abstração parece ser particularmente bem descrito no embedding space

  • Código gerado por IA muitas vezes parece pior do que realmente é
    Ele tende a ser prolixo demais, confuso e cheio de fallbacks, então, quando dá problema, a falha vai escorrendo por inúmeros try/catch e joga o stack trace em lugares absurdos
    Ainda assim, olhando só para a funcionalidade pura, muitas vezes ele acaba funcionando melhor do que código escrito por humanos com aparência semelhante

    • Mesmo assim, o código descrito dessa forma continua sendo código ruim
      Porque é difícil de raciocinar sobre ele, tanto para pessoas quanto para LLMs
  • Queria ver mais textos de blog nesse estilo
    Tem um tamanho adequado, transmite bem a mensagem e ainda tem um lado narrativo
    Hoje em dia há tanto lixo de IA gerado por LLM com comprimento de romance que isso acaba sendo ainda mais bem-vindo

  • Para muita gente da indústria, isso parece um movimento bastante óbvio
    O problema é que há dinheiro demais envolvido, então os grandes players continuam empurrando o que querem

  • Isso me faz imaginar que partículas subatômicas são na verdade universos inteiros, e que suas propriedades refletem os seres que governaram esses universos e os vestígios da automação que continuou rodando mesmo depois de seu desaparecimento
    Algo como máquinas automáticas que colhem entropia e continuam se replicando
    Estamos criando agora uma força maior do que nós, e talvez em algum momento cheguemos a um ponto sem volta

    • Não entendi isso totalmente, mas a ideia me parece fascinante
      Faz pensar em inúmeros universos e civilizações subatômicos surgindo e desaparecendo, às vezes sendo consumidos por tecnologias autônomas parecidas com inteligência, e isso, em escala macro, aparecendo como o comportamento das partículas
      Agora nós também estamos, no fim, criando uma partícula, e talvez nossas escolhas coletivas tenham um efeito minúsculo, mas significativo, sobre o universo superior ao qual pertencemos
  • A saída de alguém sempre vira a entrada de outra pessoa
    Se você aumenta o volume com LLM, a pessoa seguinte também vai usar LLM para parsear isso e produzir a própria saída
    Isso vai se encadeando até que, quando o consumidor final reclama, ninguém mais consegue apontar exatamente onde deu errado

    • Claro, nessa hora vão dizer que foi uso incorreto por parte do consumidor final
      Afinal, só o consumidor final está visível; todo o resto está escondido atrás de sete camadas de proxy