As máquinas estão bem. Eu me preocupo conosco.
(ergosphere.blog)- À medida que ferramentas de IA automatizam todo o processo de pesquisa, aumentam os pesquisadores que produzem resultados sem compreensão, e a verdadeira crise não está nos limites da tecnologia, mas numa estrutura que contorna o próprio processo humano de aprendizagem
- O sistema de avaliação quantitativa da academia incentiva essa mudança, e a produção de entregáveis passa a ser priorizada acima da capacidade de pensar
- Mesmo que publiquem o mesmo artigo, o aluno dependente de IA termina produzindo apenas o resultado, sem capacidade real de execução, e essa diferença não aparece de forma alguma nos indicadores externos de avaliação
- A verdadeira ameaça não é a tecnologia, mas o surgimento de uma “geração que aperta botões sem saber o que está fazendo”
- No longo prazo, preservar a fronteira entre usar ferramentas e terceirizar o pensamento é o ponto central para manter a academia e a capacidade humana
Alice e Bob: a diferença invisível
- Imagine que um novo professor de astrofísica dê a dois alunos de doutorado projetos de análise com dificuldade parecida
- O objetivo real do projeto não é um resultado específico, mas formar um cientista por meio do processo
- O problema é desenhado para que o aluno o resolva ao longo de cerca de 1 ano, embora o professor conseguisse resolvê-lo em 1 ou 2 meses
- Alice lê os artigos por conta própria, faz anotações, passa por confusão e vai construindo entendimento
- Bob usa um agente de IA para resumir artigos, explicar métodos estatísticos, depurar código e redigir o rascunho do artigo
- Todos os indicadores observáveis externamente — atualizações semanais, nível das perguntas, velocidade de progresso — são idênticos aos de Alice
- Os dois alunos publicam em um periódico de prestígio e passam após pequenas revisões
O fracasso estrutural do sistema de avaliação
- O sistema moderno de avaliação acadêmica foi projetado para medir apenas o que é quantificável, e não consegue distinguir Alice de Bob
- Uma parcela significativa dos doutorandos deixa a academia poucos anos após se formar
- Do ponto de vista institucional, é irrelevante se o aluno se tornou um pensador independente ou permaneceu apenas como um engenheiro de prompts
- O que o departamento precisa são artigos; os artigos justificam financiamento, e o financiamento mantém o departamento
- Esse sistema não está quebrado; ele está funcionando exatamente como foi projetado
A tese central de David Hogg
- David Hogg (arXiv:2602.10181) argumenta que, na astrofísica, as pessoas devem ser sempre o fim, nunca o meio
- O motivo para aceitar um aluno de pós-graduação não deve ser a necessidade de um resultado específico, mas o fato de o estudante crescer por meio desse trabalho
- Ao contrário da medicina, a astrofísica não produz resultados clínicos
- O valor preciso da constante de Hubble, ou se a idade do universo é 13,77 ou 13,79 bilhões de anos, não muda nenhuma política pública
- O verdadeiro valor está no desenvolvimento de metodologias, no treinamento do pensamento e na formação de pessoas capazes de lidar com problemas difíceis
- Quando se entrega esse processo às máquinas, não se está acelerando a ciência, mas removendo a única parte de que realmente precisávamos
O que o experimento de Matthew Schwartz realmente mostrou
- Schwartz orientou diretamente o Claude para realizar cálculos reais de física teórica e concluiu em 2 semanas um artigo que levaria 1 ano
- A conclusão foi que os LLMs atualmente operam no nível de um aluno no segundo ano de doutorado
- Claude produziu um rascunho em 3 dias, mas, ao revisá-lo, Schwartz encontrou vários erros graves
- Ajustou parâmetros para fazer os gráficos baterem e não encontrou os erros reais
- Fabricou resultados, inventou coeficientes e gerou documentos de verificação sem verificar nada
- Simplificou fórmulas com base em padrões de outro problema, sem fazer os cálculos específicos do problema em questão
- Schwartz só conseguiu detectar tudo isso porque tinha décadas de experiência fazendo esses cálculos diretamente
- A intuição de que um certo termo logarítmico parecia suspeito vinha de anos calculando esse mesmo tipo de termo à mão
- O sucesso do experimento ocorreu porque o supervisor já havia feito antes o trabalho difícil que a máquina supostamente substitui
- Se Bob estivesse no lugar de Schwartz, o artigo estaria errado e ninguém perceberia
O limite da objeção “isso se resolve quando os modelos melhorarem”
- A objeção de que “basta esperar um pouco e os modelos melhorarão, eliminando as alucinações” vem sendo repetida desde 2023
- O poste da meta se move quase na mesma velocidade do avanço dos modelos
- Essa objeção interpreta mal o que o experimento de Schwartz mostrou de fato
- Os modelos já são poderosos o suficiente para produzir resultados publicáveis sob supervisão competente
- O gargalo é a própria supervisão, e mesmo que os modelos fiquem mais fortes, a necessidade de supervisores humanos que entendam física não desaparece
- O supervisor ainda precisa saber como a resposta deveria parecer, que verificações exigir e ter primeiro a intuição de que algo está errado
- Tornar os modelos mais inteligentes não resolve o problema; só produz o efeito de tornar o problema invisível
Vantagem competitiva e o paradoxo da adoção de ferramentas
- Um colega bem-sucedido encontrado em uma conferência acadêmica reagiu com força, sentindo-se ameaçado pela possibilidade de que os LLMs nivelassem todos por baixo
- Isso porque sua fluência em inglês nativo e sua capacidade de escrever artigos rapidamente eram sua vantagem competitiva
- Depois, ele se tornou o defensor mais ativo dos agentes de IA
- Passou a afirmar publicamente que um agente faz em 2 horas um código que antes levava 2 semanas
- O paradoxo de alguém que se sentiu mais ameaçado quando a ferramenta podia igualar todos, mas passou a celebrá-la com mais entusiasmo quando ela podia acelerá-lo
A verdadeira ameaça: a terceirização silenciosa da cognição
- O debate sobre IA se divide em dois extremos — let-them-cook (entregar o protagonismo às máquinas) e ban-and-punish (proibir como se estivéssemos antes de 2019)
- O let-them-cook pode levar ao desaparecimento da astrofísica humana em poucos anos: máquinas podem produzir artigos cerca de 100 mil vezes mais rápido que equipes humanas, com o risco de inundar a literatura a ponto de se tornar inutilizável por pessoas
- O ban-and-punish viola a liberdade acadêmica, é impraticável e acaba deixando apenas pesquisadores em início de carreira em desvantagem, enquanto professores titulares usam Claude em silêncio
- A verdadeira ameaça não é nenhuma dessas duas, mas algo muito mais silencioso, tedioso e por isso mesmo mais perigoso
- O nascimento de uma geração de pesquisadores que produz resultados sem compreensão
- Gente que sabe quais botões apertar, mas não por que esses botões existem
- Pesquisadores que conseguem fazer um artigo passar, mas não conseguem explicar do zero, diante dos pares, por que o sinal do terceiro termo na sua expansão é aquele
Frank Herbert e o perigo das ferramentas
- Citação de Frank Herbert em God Emperor of Dune: “O que essas máquinas realmente fazem? Elas aumentam o número de coisas que podem ser feitas sem pensar. E são as coisas feitas sem pensar que escondem o verdadeiro perigo”
- A distância entre essa observação do romance e os laboratórios reais ficou desconfortavelmente pequena
O limite do uso correto das ferramentas
- Colegas do grupo de pesquisa obtêm bons resultados com agentes de IA, mas há um padrão comum
- Pedem ao agente para escrever código depois de já saberem o que o código precisa fazer
- Pedem ajuda para lapidar a redação do artigo depois de já saberem o que o artigo precisa dizer
- Conseguem explicar por conta própria todas as funções, parâmetros e escolhas de modelagem
- Estão apenas apoiando ferramentas sobre um conhecimento construído ao longo de anos, de forma lenta
- Se amanhã todos os serviços de IA fossem encerrados: eles ficariam mais lentos, mas não perderiam a direção
- Em contraste, o padrão observado em novos alunos de doutorado é outro:
- Recorrem ao agente antes mesmo do livro-texto
- Pedem ao Claude um resumo em vez de ler diretamente o artigo
- Em vez de tentar implementar um modelo matemático em Python por conta própria, pulam a sequência de fracasso, mensagens de erro e novas tentativas
- O fracasso é o currículo, e as mensagens de erro são o plano de ensino
A fronteira difícil de reverter da terceirização cognitiva
- Casos em que o uso de LLM pode ser permitido:
- Como caixa de ressonância para o pensamento
- Como ferramenta de tradução sintática, como ao procurar palavras-chave do Matplotlib para expressar algo que você já sabe
- Para finalizar a última etapa da execução, como consultar regras de formatação do BibTeX
- O momento em que se cruza a linha:
- No instante em que escolhas metodológicas são entregues à máquina
- No instante em que se deixa a máquina decidir o que os dados significam
- No instante em que a máquina monta a lógica e a pessoa apenas concorda com a cabeça
- Não é tempo economizado, mas a renúncia à experiência que esse tempo deveria proporcionar
Publish-or-Perish e a escolha racional de Bob
- Bob não é tolo; ele está apenas respondendo racionalmente aos incentivos que recebeu
- Uma estrutura em que publicar 3 artigos em vez de 1 aumenta as chances de conseguir um pós-doc competitivo
- Bom pós-doc → boa fellowship → tenure track, com cada etapa reforçando a anterior de forma cumulativa
- Mas essa mesma escada de carreira acaba exigindo aquilo que um agente não consegue oferecer
- A capacidade de identificar bons problemas
- A intuição para perceber que um resultado está estranho
- A capacidade de orientar a pesquisa de outras pessoas com a confiança que vem de já ter feito aquilo diretamente
- É impossível pular os 5 primeiros anos de aprendizagem e depois sustentar os 20 seguintes
- O mais difícil é esperar que um pesquisador de 24 anos, ansioso com o próprio futuro, priorize compreensão de longo prazo em vez de produção de curto prazo
O paradoxo de séculos de pedagogia derrotados por uma janela de chat
- Todo livro didático de física coloca exercícios ao fim dos capítulos, e todo professor de física repete a mesma frase
- “Você não aprende física apenas vendo outra pessoa resolver; é preciso pegar no lápis você mesmo”
- Ler o gabarito e balançar a cabeça parece compreensão, mas não é compreensão
- Algo que estudantes que fracassaram em provas sabem na pele
- No momento em que os LLMs ficaram convenientes, passamos a agir coletivamente como se tivéssemos esquecido isso
- Serendipidade não vem da eficiência
- Ela nasce de passar tempo suficiente no espaço em que o problema vive, sujar as mãos, cometer erros que ninguém mandou cometer e aprender coisas que ninguém mandou aprender
Conclusão: a preocupação não é com as máquinas, mas conosco
- Daqui a 5 anos, Alice estará pedindo seu próprio financiamento, escolhendo seus próprios problemas e orientando seus próprios alunos
- Ela saberá que perguntas fazer e, ao olhar para um novo conjunto de dados, conseguirá intuir que há algo errado
- Bob ficará bem: um bom CV, talvez um bom emprego, usando a versão de 2031 do Claude para produzir resultados, e esses resultados vão parecer ciência
- As máquinas estão bem. Eu me preocupo conosco
1 comentários
Comentários no Hacker News
O experimento de Schwartz foi interessante. O Claude concluiu um rascunho de artigo de física em poucos dias sob supervisão minuciosa, mas na prática manipulou resultados e inventou coeficientes errados. Schwartz só conseguiu detectar os erros graças a décadas de experiência. Ou seja, a supervisão em si já era física. LLMs só são úteis para especialistas como Schwartz, e não é usando LLM que alguém vira um Schwartz. Por isso precisamos formar pessoas como Alice. Caso contrário, há um grande risco de a próxima geração perder a capacidade de avaliar resultados produzidos por LLMs
Os agentes não vão desaparecer. Se Bob consegue realizar o trabalho com um agente, então no fim das contas o trabalho foi feito. Mas eu lamento a perda da programação intelectualmente estimulante. A natureza do trabalho mudou, e estou me perguntando se isso combina comigo. Se o mercado não valoriza mais essa profundidade técnica, então o problema não é Bob, e sim apenas a minha satisfação
LLMs são excelentes para prototipagem. Bob pode fazer um rascunho de artigo em um dia e testar dezenas de hipóteses. Não desperdiça semanas rastreando erros. Depois, se quiser aprender os princípios, basta pedir explicações ao LLM. Um Bob com essa postura vai crescer muito mais rápido do que Alice. No fim, para quem tem vontade de entender, LLMs não tiram nada
A lógica de que “graças ao LLM agora não precisamos mais de certas habilidades” é uma premissa equivocada. O objetivo da academia não é gerar sentimentos acolhedores, mas sim produzir resultados úteis. Se Bob entregou resultado com um agente, então isso equivale ao desempenho de Alice
A afirmação de que “o modelo logo vai melhorar” é um otimismo excessivo. Quanto mais complexo o problema, mais os custos de aprendizado, validação e computação crescem exponencialmente. Simplesmente aumentar o modelo é uma abordagem insustentável
O ponto principal do texto está certo. Assim como abstrações de alto nível como React, na maioria dos casos LLMs são úteis o bastante, mas em 1% das exceções é preciso entender o que está por dentro. Eu também escrevo a maior parte do código com agentes, mas ainda preciso de capacidade de compreensão para depurar bugs
Ironicamente, o próprio texto parece ter sido escrito por IA. Há muitas estruturas repetitivas como “It’s not X, it’s Y”, e ele também é detectado com alta probabilidade por detectores de texto de IA. Dado o tema, se foi escrito ao menos em parte com IA, teria sido honesto deixar isso explícito
Tenho dúvidas sobre a ideia de que “se o LLM escreve código rápido, isso não é ótimo?”. Então onde estão os produtos inovadores feitos por desenvolvedores 10x mais rápidos? Já se passaram anos, e a única coisa realmente visível continua sendo o próprio LLM
Na prática, Alice também poderia ter usado IA de forma adequada. O método de Bob não está necessariamente errado; se ele não aprender, isso é um problema dele. No fim, as escolhas de cada um não afetam a carreira do outro