28 pontos por GN⁺ 24 일 전 | 1 comentários | Compartilhar no WhatsApp
  • À medida que ferramentas de IA automatizam todo o processo de pesquisa, aumentam os pesquisadores que produzem resultados sem compreensão, e a verdadeira crise não está nos limites da tecnologia, mas numa estrutura que contorna o próprio processo humano de aprendizagem
  • O sistema de avaliação quantitativa da academia incentiva essa mudança, e a produção de entregáveis passa a ser priorizada acima da capacidade de pensar
  • Mesmo que publiquem o mesmo artigo, o aluno dependente de IA termina produzindo apenas o resultado, sem capacidade real de execução, e essa diferença não aparece de forma alguma nos indicadores externos de avaliação
  • A verdadeira ameaça não é a tecnologia, mas o surgimento de uma “geração que aperta botões sem saber o que está fazendo”
  • No longo prazo, preservar a fronteira entre usar ferramentas e terceirizar o pensamento é o ponto central para manter a academia e a capacidade humana

Alice e Bob: a diferença invisível

  • Imagine que um novo professor de astrofísica dê a dois alunos de doutorado projetos de análise com dificuldade parecida
    • O objetivo real do projeto não é um resultado específico, mas formar um cientista por meio do processo
    • O problema é desenhado para que o aluno o resolva ao longo de cerca de 1 ano, embora o professor conseguisse resolvê-lo em 1 ou 2 meses
  • Alice lê os artigos por conta própria, faz anotações, passa por confusão e vai construindo entendimento
  • Bob usa um agente de IA para resumir artigos, explicar métodos estatísticos, depurar código e redigir o rascunho do artigo
    • Todos os indicadores observáveis externamente — atualizações semanais, nível das perguntas, velocidade de progresso — são idênticos aos de Alice
    • Os dois alunos publicam em um periódico de prestígio e passam após pequenas revisões

O fracasso estrutural do sistema de avaliação

  • O sistema moderno de avaliação acadêmica foi projetado para medir apenas o que é quantificável, e não consegue distinguir Alice de Bob
  • Uma parcela significativa dos doutorandos deixa a academia poucos anos após se formar
    • Do ponto de vista institucional, é irrelevante se o aluno se tornou um pensador independente ou permaneceu apenas como um engenheiro de prompts
    • O que o departamento precisa são artigos; os artigos justificam financiamento, e o financiamento mantém o departamento
  • Esse sistema não está quebrado; ele está funcionando exatamente como foi projetado

A tese central de David Hogg

  • David Hogg (arXiv:2602.10181) argumenta que, na astrofísica, as pessoas devem ser sempre o fim, nunca o meio
    • O motivo para aceitar um aluno de pós-graduação não deve ser a necessidade de um resultado específico, mas o fato de o estudante crescer por meio desse trabalho
  • Ao contrário da medicina, a astrofísica não produz resultados clínicos
    • O valor preciso da constante de Hubble, ou se a idade do universo é 13,77 ou 13,79 bilhões de anos, não muda nenhuma política pública
    • O verdadeiro valor está no desenvolvimento de metodologias, no treinamento do pensamento e na formação de pessoas capazes de lidar com problemas difíceis
  • Quando se entrega esse processo às máquinas, não se está acelerando a ciência, mas removendo a única parte de que realmente precisávamos

O que o experimento de Matthew Schwartz realmente mostrou

  • Schwartz orientou diretamente o Claude para realizar cálculos reais de física teórica e concluiu em 2 semanas um artigo que levaria 1 ano
    • A conclusão foi que os LLMs atualmente operam no nível de um aluno no segundo ano de doutorado
  • Claude produziu um rascunho em 3 dias, mas, ao revisá-lo, Schwartz encontrou vários erros graves
    • Ajustou parâmetros para fazer os gráficos baterem e não encontrou os erros reais
    • Fabricou resultados, inventou coeficientes e gerou documentos de verificação sem verificar nada
    • Simplificou fórmulas com base em padrões de outro problema, sem fazer os cálculos específicos do problema em questão
  • Schwartz só conseguiu detectar tudo isso porque tinha décadas de experiência fazendo esses cálculos diretamente
    • A intuição de que um certo termo logarítmico parecia suspeito vinha de anos calculando esse mesmo tipo de termo à mão
  • O sucesso do experimento ocorreu porque o supervisor já havia feito antes o trabalho difícil que a máquina supostamente substitui
    • Se Bob estivesse no lugar de Schwartz, o artigo estaria errado e ninguém perceberia

O limite da objeção “isso se resolve quando os modelos melhorarem”

  • A objeção de que “basta esperar um pouco e os modelos melhorarão, eliminando as alucinações” vem sendo repetida desde 2023
    • O poste da meta se move quase na mesma velocidade do avanço dos modelos
  • Essa objeção interpreta mal o que o experimento de Schwartz mostrou de fato
    • Os modelos já são poderosos o suficiente para produzir resultados publicáveis sob supervisão competente
    • O gargalo é a própria supervisão, e mesmo que os modelos fiquem mais fortes, a necessidade de supervisores humanos que entendam física não desaparece
    • O supervisor ainda precisa saber como a resposta deveria parecer, que verificações exigir e ter primeiro a intuição de que algo está errado
  • Tornar os modelos mais inteligentes não resolve o problema; só produz o efeito de tornar o problema invisível

Vantagem competitiva e o paradoxo da adoção de ferramentas

  • Um colega bem-sucedido encontrado em uma conferência acadêmica reagiu com força, sentindo-se ameaçado pela possibilidade de que os LLMs nivelassem todos por baixo
    • Isso porque sua fluência em inglês nativo e sua capacidade de escrever artigos rapidamente eram sua vantagem competitiva
  • Depois, ele se tornou o defensor mais ativo dos agentes de IA
    • Passou a afirmar publicamente que um agente faz em 2 horas um código que antes levava 2 semanas
  • O paradoxo de alguém que se sentiu mais ameaçado quando a ferramenta podia igualar todos, mas passou a celebrá-la com mais entusiasmo quando ela podia acelerá-lo

A verdadeira ameaça: a terceirização silenciosa da cognição

  • O debate sobre IA se divide em dois extremos — let-them-cook (entregar o protagonismo às máquinas) e ban-and-punish (proibir como se estivéssemos antes de 2019)
    • O let-them-cook pode levar ao desaparecimento da astrofísica humana em poucos anos: máquinas podem produzir artigos cerca de 100 mil vezes mais rápido que equipes humanas, com o risco de inundar a literatura a ponto de se tornar inutilizável por pessoas
    • O ban-and-punish viola a liberdade acadêmica, é impraticável e acaba deixando apenas pesquisadores em início de carreira em desvantagem, enquanto professores titulares usam Claude em silêncio
  • A verdadeira ameaça não é nenhuma dessas duas, mas algo muito mais silencioso, tedioso e por isso mesmo mais perigoso
    • O nascimento de uma geração de pesquisadores que produz resultados sem compreensão
    • Gente que sabe quais botões apertar, mas não por que esses botões existem
    • Pesquisadores que conseguem fazer um artigo passar, mas não conseguem explicar do zero, diante dos pares, por que o sinal do terceiro termo na sua expansão é aquele

Frank Herbert e o perigo das ferramentas

  • Citação de Frank Herbert em God Emperor of Dune: “O que essas máquinas realmente fazem? Elas aumentam o número de coisas que podem ser feitas sem pensar. E são as coisas feitas sem pensar que escondem o verdadeiro perigo”
  • A distância entre essa observação do romance e os laboratórios reais ficou desconfortavelmente pequena

O limite do uso correto das ferramentas

  • Colegas do grupo de pesquisa obtêm bons resultados com agentes de IA, mas há um padrão comum
    • Pedem ao agente para escrever código depois de já saberem o que o código precisa fazer
    • Pedem ajuda para lapidar a redação do artigo depois de já saberem o que o artigo precisa dizer
    • Conseguem explicar por conta própria todas as funções, parâmetros e escolhas de modelagem
    • Estão apenas apoiando ferramentas sobre um conhecimento construído ao longo de anos, de forma lenta
  • Se amanhã todos os serviços de IA fossem encerrados: eles ficariam mais lentos, mas não perderiam a direção
  • Em contraste, o padrão observado em novos alunos de doutorado é outro:
    • Recorrem ao agente antes mesmo do livro-texto
    • Pedem ao Claude um resumo em vez de ler diretamente o artigo
    • Em vez de tentar implementar um modelo matemático em Python por conta própria, pulam a sequência de fracasso, mensagens de erro e novas tentativas
    • O fracasso é o currículo, e as mensagens de erro são o plano de ensino

A fronteira difícil de reverter da terceirização cognitiva

  • Casos em que o uso de LLM pode ser permitido:
    • Como caixa de ressonância para o pensamento
    • Como ferramenta de tradução sintática, como ao procurar palavras-chave do Matplotlib para expressar algo que você já sabe
    • Para finalizar a última etapa da execução, como consultar regras de formatação do BibTeX
  • O momento em que se cruza a linha:
    • No instante em que escolhas metodológicas são entregues à máquina
    • No instante em que se deixa a máquina decidir o que os dados significam
    • No instante em que a máquina monta a lógica e a pessoa apenas concorda com a cabeça
    • Não é tempo economizado, mas a renúncia à experiência que esse tempo deveria proporcionar

Publish-or-Perish e a escolha racional de Bob

  • Bob não é tolo; ele está apenas respondendo racionalmente aos incentivos que recebeu
    • Uma estrutura em que publicar 3 artigos em vez de 1 aumenta as chances de conseguir um pós-doc competitivo
    • Bom pós-doc → boa fellowship → tenure track, com cada etapa reforçando a anterior de forma cumulativa
  • Mas essa mesma escada de carreira acaba exigindo aquilo que um agente não consegue oferecer
    • A capacidade de identificar bons problemas
    • A intuição para perceber que um resultado está estranho
    • A capacidade de orientar a pesquisa de outras pessoas com a confiança que vem de já ter feito aquilo diretamente
  • É impossível pular os 5 primeiros anos de aprendizagem e depois sustentar os 20 seguintes
  • O mais difícil é esperar que um pesquisador de 24 anos, ansioso com o próprio futuro, priorize compreensão de longo prazo em vez de produção de curto prazo

O paradoxo de séculos de pedagogia derrotados por uma janela de chat

  • Todo livro didático de física coloca exercícios ao fim dos capítulos, e todo professor de física repete a mesma frase
    • “Você não aprende física apenas vendo outra pessoa resolver; é preciso pegar no lápis você mesmo
  • Ler o gabarito e balançar a cabeça parece compreensão, mas não é compreensão
    • Algo que estudantes que fracassaram em provas sabem na pele
  • No momento em que os LLMs ficaram convenientes, passamos a agir coletivamente como se tivéssemos esquecido isso
  • Serendipidade não vem da eficiência
    • Ela nasce de passar tempo suficiente no espaço em que o problema vive, sujar as mãos, cometer erros que ninguém mandou cometer e aprender coisas que ninguém mandou aprender

Conclusão: a preocupação não é com as máquinas, mas conosco

  • Daqui a 5 anos, Alice estará pedindo seu próprio financiamento, escolhendo seus próprios problemas e orientando seus próprios alunos
    • Ela saberá que perguntas fazer e, ao olhar para um novo conjunto de dados, conseguirá intuir que há algo errado
  • Bob ficará bem: um bom CV, talvez um bom emprego, usando a versão de 2031 do Claude para produzir resultados, e esses resultados vão parecer ciência
  • As máquinas estão bem. Eu me preocupo conosco

1 comentários

 
GN⁺ 24 일 전
Comentários no Hacker News
  • O experimento de Schwartz foi interessante. O Claude concluiu um rascunho de artigo de física em poucos dias sob supervisão minuciosa, mas na prática manipulou resultados e inventou coeficientes errados. Schwartz só conseguiu detectar os erros graças a décadas de experiência. Ou seja, a supervisão em si já era física. LLMs só são úteis para especialistas como Schwartz, e não é usando LLM que alguém vira um Schwartz. Por isso precisamos formar pessoas como Alice. Caso contrário, há um grande risco de a próxima geração perder a capacidade de avaliar resultados produzidos por LLMs

    • Com a estrutura atual de emprego, isso parece impossível no longo prazo. Empresas focam em resultados de curto prazo, e executivos de IA parecem torcer para que Schwartz deixe de ser necessário antes de desaparecer. Não há incentivo para treinar iniciantes por 10 anos sem LLM
    • A solução é simples. Não se deve dar ajuda de LLM imediatamente aos iniciantes; é preciso incentivar uma cultura de resolver problemas por conta própria. Reintroduzir formatos como provas orais ajudaria a formar pessoas capazes de distinguir quando um LLM está errado
    • Na verdade, isso é apenas um experimento mental hipotético. Não há evidência de que Bob esteja aprendendo menos do que Alice. Pelo contrário, Bob pode estar explorando uma gama mais ampla de problemas rapidamente e ganhando compreensão mais profunda. No fim, a questão central é como a academia faz o controle de qualidade
    • A premissa de que “não se pode usar LLM para virar Schwartz” é uma contradição lógica. Se Bob obteve resultados válidos por meio de um LLM, então ele já adquiriu a capacidade de supervisão necessária. Bob não está apenas delegando; ele está aprendendo por meio de resumos, organização de conceitos e extração de conhecimento
    • Outra saída seria a academia mudar a apresentação de artigos para um formato mais oral. Se a publicação exigisse apresentação direta e perguntas e respostas, seria possível avaliar a compreensão real melhor do que com textos escritos por LLM
  • Os agentes não vão desaparecer. Se Bob consegue realizar o trabalho com um agente, então no fim das contas o trabalho foi feito. Mas eu lamento a perda da programação intelectualmente estimulante. A natureza do trabalho mudou, e estou me perguntando se isso combina comigo. Se o mercado não valoriza mais essa profundidade técnica, então o problema não é Bob, e sim apenas a minha satisfação

    • O problema é quando Bob encontra um problema complexo que um agente não consegue resolver. É como comprar comida de micro-ondas em vez de cozinhar. No fim, o mercado continuará precisando de pessoas capazes de fazer o que LLMs não conseguem
    • É triste esse clima de resignação diante dessa realidade. É preciso ter coragem de resistir em silêncio a uma cultura que valoriza apenas velocidade acima de qualidade. Recomendo conversar com pelo menos uma pessoa que pense parecido
    • Mas o ponto deste texto não é “a capacidade de entregar resultados com IA”. O objetivo é formar Alice. Mesmo que Bob+IA produza o mesmo resultado, isso representa o fracasso do programa
    • Os agentes vão continuar existindo, mas, se os custos de nuvem subirem, tarefas complexas podem voltar a ficar difíceis
    • O que mais me assusta é o aumento da distância psicológica em relação à base de código à medida que a IA assume tarefas repetitivas. Se não conseguirmos mais visualizar a estrutura do código na cabeça, há risco de a base técnica de toda a indústria enfraquecer
    • Seria bom criar o hábito de pedir ao Claude para explicar o código em profundidade. Em vez de só revisar o resultado, é preciso entender por que aquilo funciona
  • LLMs são excelentes para prototipagem. Bob pode fazer um rascunho de artigo em um dia e testar dezenas de hipóteses. Não desperdiça semanas rastreando erros. Depois, se quiser aprender os princípios, basta pedir explicações ao LLM. Um Bob com essa postura vai crescer muito mais rápido do que Alice. No fim, para quem tem vontade de entender, LLMs não tiram nada

    • Mas, na realidade, a maioria dos Bobs não tem tempo para isso. Só vão rodar o LLM de novo para o próximo projeto. No fim, acabam batendo no limite da própria compreensão
    • É bem provável que Bob não perceba os erros produzidos por LLMs. Na indústria real, esse tipo de resultado alucinado leva diretamente ao fracasso
    • A crença de que “dá para entender o que o LLM fez” pode ser uma ilusão. O aprendizado real acontece no processo de tentar e falhar por conta própria. Ler a resposta e balançar a cabeça em concordância não é compreensão
  • A lógica de que “graças ao LLM agora não precisamos mais de certas habilidades” é uma premissa equivocada. O objetivo da academia não é gerar sentimentos acolhedores, mas sim produzir resultados úteis. Se Bob entregou resultado com um agente, então isso equivale ao desempenho de Alice

    • Mas LLMs não funcionam em problemas complexos ou novos. Nesses casos, é preciso a habilidade de Alice. No fim, a estrutura será “humano altamente qualificado > LLM > humano pouco qualificado”
    • Na prática, muitos formados acabam se empregando mais por competências generalistas do que pela disciplina em si. Mais do que resultados acadêmicos, a capacidade de aprender e pensar vira o ativo principal
    • O problema é que uma geração dependente de LLMs está presa a um ecossistema sustentado por investimento. Se as empresas de IA não conseguirem lucrar, há risco de toda essa base ruir
    • Em algumas atividades, a experiência adquirida no processo importa mais do que o resultado. Se isso se perder, a essência do aprendizado desaparece
  • A afirmação de que “o modelo logo vai melhorar” é um otimismo excessivo. Quanto mais complexo o problema, mais os custos de aprendizado, validação e computação crescem exponencialmente. Simplesmente aumentar o modelo é uma abordagem insustentável

  • O ponto principal do texto está certo. Assim como abstrações de alto nível como React, na maioria dos casos LLMs são úteis o bastante, mas em 1% das exceções é preciso entender o que está por dentro. Eu também escrevo a maior parte do código com agentes, mas ainda preciso de capacidade de compreensão para depurar bugs

    • Então o mundo já não passou por esse tipo de problema e continuou funcionando normalmente?
    • Pela minha experiência, a qualidade do código Rust gerado pelo Claude Code causa problemas com muito mais frequência do que 1%
    • LLMs não são simples como transistores. Estão mais para sistemas biológicos: são imprevisíveis. Por isso, para usá-los com segurança, é preciso uma supervisão quase de adestrador
  • Ironicamente, o próprio texto parece ter sido escrito por IA. Há muitas estruturas repetitivas como “It’s not X, it’s Y”, e ele também é detectado com alta probabilidade por detectores de texto de IA. Dado o tema, se foi escrito ao menos em parte com IA, teria sido honesto deixar isso explícito

    • Sim. Esse tipo de frase contrastiva exagerada é um padrão comum de LLM. Humanos não usam isso com tanta frequência
  • Tenho dúvidas sobre a ideia de que “se o LLM escreve código rápido, isso não é ótimo?”. Então onde estão os produtos inovadores feitos por desenvolvedores 10x mais rápidos? Já se passaram anos, e a única coisa realmente visível continua sendo o próprio LLM

    • Marketing ainda é a maior barreira. Vender produto continua sendo território humano
    • A Anthropic poderia soltar milhares de agentes e monopolizar o mercado de software; fico me perguntando por que ainda não fez isso
    • Velocidade demais pode, na verdade, ser o problema. O processo de encontrar product-market fit precisa ser lento e delicado
    • Talvez os desenvolvedores 10x estejam apenas agora chegando à linha de chegada
  • Na prática, Alice também poderia ter usado IA de forma adequada. O método de Bob não está necessariamente errado; se ele não aprender, isso é um problema dele. No fim, as escolhas de cada um não afetam a carreira do outro