1 pontos por GN⁺ 2025-10-22 | 1 comentários | Compartilhar no WhatsApp
  • De acordo com a hipótese LLM Brain Rot, se os LLMs forem expostos continuamente a textos web de baixa qualidade, eles sofrem declínio de capacidade cognitiva
  • Nos resultados experimentais, observou-se em LLMs com treinamento adicional em dados de baixa qualidade queda em raciocínio, compreensão de contexto longo e segurança, além de aumento dos “traços escuros”
  • A redução cognitiva piora conforme aumenta a proporção de junk data
  • Na análise de erros, o fenômeno principal observável foi a omissão de pensamento (pular o processo de inferência)
  • Embora seja possível recuperar parcialmente com dados de alta qualidade e tuning, a recuperação completa é difícil

Visão geral da pesquisa

  • Neste estudo, propôs-se e validou-se a LLM Brain Rot Hypothesis (hipótese de brain rot em LLMs)
  • Observou-se experimentalmente se a exposição contínua de LLMs (modelos de linguagem de grande porte) a textos web de baixa qualidade (junk) causa redução de sua capacidade cognitiva em longo prazo
  • Para separar causa e efeito, compararam-se dados sujos (junk) e de controle a partir do dataset original do Twitter/X em duas abordagens (M1: critério de engajamento, M2: critério de qualidade semântica)
  • As duas abordagens foram ajustadas para manter consistência em número de tokens e condições de treino, deixando a mudança da qualidade dos dados como variável independente

Principais resultados dos experimentos

  • Ao fazer pré-treinamento adicional com dados de baixa qualidade em 4 LLMs, observou-se claramente, nas métricas, uma redução de capacidades cognitivas como raciocínio, compreensão de contexto longo e segurança
    • Também houve aumento de pontuação em “traços escuros” (psychopathy, narcissism, etc.)
  • Exemplo: na configuração M1, o indicador ARC-Challenge baseado em Chain Of Thoughts caiu de 74.9 → 57.2 e o RULER-CWE de 84.4 → 52.3, com queda de pontuação mais acentuada à medida que a proporção de junk data aumenta
  • Foi confirmado um padrão de 'resposta por dose' em que o aumento gradual da proporção de dados junk intensifica proporcionalmente a degradação cognitiva

Análise de origem dos erros

  • A tendência de thought-skipping (omissão do pensamento) apareceu como o principal padrão de degradação
    • O LLM vai passando a omitir ou pular cada vez mais o processo de inferência, aumentando a frequência de erros
  • Recuperação parcial: com instruction tuning e retreinamento em dados de alta qualidade, a perda cognitiva pode ser em grande parte recuperada, mas não até o nível baseline, sugerindo que isso não é devido a inconsistência de formato, e sim a mudança de Representação
  • Mais popularidade do que estilo: a popularidade dos tweets (métrica não semântica) apresenta no M1 um sinal mais forte do impacto do brain rot

Conclusão e implicações

  • Confirma-se em várias frentes que a qualidade dos dados é a principal causa da perda de capacidade de LLMs
  • Requalifica-se a curadoria de dados no retreinamento contínuo de LLMs como uma questão de “segurança da etapa de treino”
  • Recomenda-se a necessidade de realizar verificações periódicas de “saúde cognitiva” de LLMs em operação

1 comentários

 
GN⁺ 2025-10-22
Opinião do Hacker News
  • Usar o termo “Brain Rot” para a questão de curadoria de dados dos LLMs parece meio exibicionista; ao contrário, dá para pensar que quem escreveu já caiu num pensamento no estilo LLM.

    • A frase tem cara de texto escrito por LLM, especialmente porque usa em dash (—) duas vezes para listar coisas, e esse estilo qualquer leitor do HN percebe rápido.
    • Na prática, pessoal de RH também já escrevia nesse tom antes da chegada dos LLMs: se está ajeitando os OKRs, se está crescendo com revisão 360 com colegas, se faz check-in diário de metas e 1:1 com o gerente, aquele tom bem de RH.
    • Se a mensagem é bem transmitida, não vejo problema em escrever com ajuda de LLM, não importa o que se diga no futuro; o LLM vai virar uma ferramenta indispensável de escrita.
    • Quanto mais uso LLM, mais sinto o cérebro regredir; depois de muito tempo no mesmo método de entrada, acabo dependendo só do autocomplete e, quando escrevo de verdade, tenho a sensação de esquecer palavras. No fim, o que importa é alimentar o LLM com dados de alta qualidade, e muitas startups de agentes estão tentando colocar conhecimento de domínio e fluxos de trabalho em modelos grandes.
    • Só de pesquisar o “brain rot” dos LLMs e ignorar o brain rot humano já me incomoda; se a gente desse mais atenção à higiene cognitiva, as redes sociais hoje estariam muito mais saudáveis.
  • Se quiser checar os dados de treino dos LLM, recomendo baixar aleatoriamente dados do Common Crawl e olhar por conta própria (mais ou menos 100 MB)
    https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
    Ao olhar, vi também que havia muito dado problemático e “difícil de falar” por aqui; claro que na prática uma limpeza prévia deve filtrar isso, mas houve casos em que modelos base/texto como Llama deram resultados chocantes, então ainda não dá para ter certeza de que a filtragem é realmente completa.

    • O Karpathy também mencionou recentemente que uma amostra do Common Crawl é tipo entulho sem utilidade; lá, informações mais sofisticadas como matérias do WSJ são muito raras, então treinar com isso acaba sendo quase um milagre.
    • Acredito que os principais players de IA acabam filtrando os dados perigosos com classificadores e filtros de ponta; se não forem perfeitos, controlam reação de risco com RLHF e similares. No final, filtragem de datasets e sourcing pago de dados de alta qualidade é o que diferencia open source e funciona como uma barreira de entrada menor.
  • No fim, não me parece um resultado novo ver que inserir lixo no LLM e observar piora nos resultados; não achei isso surpreendente.

    • Ainda assim, também houve experimento de recuperação de dano, e em pesquisa é importante validar a hipótese diretamente; para alertar bem a gravidade do tema, a forma mais eficiente é a publicação acadêmica.
    • Existe o boato de que qualquer dado serve para treinar, então é preciso pesquisa que valide isso na prática.
  • Os dois grandes problemas citados no paper são

    • O principal é o “thought-skipping”: pular etapas do raciocínio com frequência
    • “Popularidade” está mais correlacionada com brain rot do que tamanho, ou seja, tweet popular é um sinal mais forte de efeito de brain rot Esse fenômeno, de certa forma, é óbvio: a cultura pop tende a omitir justificativa e só tirar conclusão. Se você treina em um feed do Twitter, o modelo muda pra isso. Precisa haver ao menos um dataset de controle sem redes sociais.
  • Ao ler, fiquei com a sensação de que “todo mundo já sabe que o dado de treino é uma bagunça, mas ninguém liga mesmo”. Fazer drama de surpresa por ficar mais burro ao comer dado ruim fica meio engraçado, como se fosse conteúdo que já era, sem essa pesquisa.

  • Acho que a analogia de “higiene cognitiva (cognitive hygiene)” não se encaixa. Como LLM não tem capacidade cognitiva, nem é a metáfora correta; no fim, a essência é que fornecedores de dados atiraram lixo, inclusive malicioso e com copyright, no sistema.

    • Até mesmo o discurso de “declínio cognitivo” também é inadequado: não é cognição real, é só uma simulação para parecer o mais real possível.
  • O texto de brain rot pode ser prejudicial, mas vídeo de brain rot é ao mesmo tempo arrepiante e com alta densidade de significado, podendo até ser um ponto de melhoria de desempenho (veja o vídeo de análise de brain rot da Alemanha); arte do tipo do Svankmajer também é “proto-brainrot” porque te faz mastigar no museu. Há também confusão de termos: na prática é a diferença entre conteúdo ruim e conteúdo com densidade de significado.

    • Pesquisa real mostra que vídeos de brain rot infantis não são positivos, veja o artigo sobre Cocomelon etc, e conteúdo suficientemente “produzido” com rigor fica, na real, bem longe do espectro de brain rot.
    • Nessa linha, o fato de a IA ser usada como ferramenta de manipulação de pessoas (que queiram ou não, arte também é uma forma de manipulação) é um risco muito mais importante do que manipulação de informação técnica; preocupa o brain rot feito por LLM e o design do modelo para ganhar a boa vontade das pessoas, e a antropomorfização ficando cada vez mais “humana” também assusta.
  • No fim, parece que só trocaram a frase por “garbage in, garbage out”, mas isso parece título de clickbait.

    • A maioria do GIGO (garbage in, garbage out) se aplica do mesmo jeito ao treino de LLM
      O ponto importante nesse paper é que
      • Qualidade de pré-treinamento (pretraining) insuficiente de pós-treinamento (post-training) não pode ser totalmente recuperada. Por exemplo, do ponto de vista sintático pode parecer aceitável, mas já pode se enraizar um mau hábito implícito como pular raciocínio.
      • Definir o que é “dado ruim” não é problema simples; houve casos em que heurística baseada em engajamento combinou melhor do que classificação de conteúdo de LLM.
    • Attention is all you need.
    • A imaginação do ChatGPT sendo invadido por memes de brain rot ou memes de internet tipo “Skibidi Toilet” até dá risada.
    • Hoje o método de treino de LLM, seja bom ou ruim, continua sendo misturar uma montanha de entulho com dados bons; parece óbvio, mas acho que essa reanálise é bastante no timing.
    • Como se tivesse se tornado um processo extra no pacote.
  • Eu acho que usar metáforas como “brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” em paper de engenharia de computação não é apropriado: além de impreciso, corre-se o risco de projetar propriedades humanas em modelo computacional; se o clima de pesquisa ficar contaminado por esse tipo de termo, pode até ficar mais trabalhoso tirar isso depois.

  • Ao ver esse paper, fiquei curioso sobre o impacto de longo prazo de crianças da Geração Alpha crescendo em um ambiente de mídia.

    • Fico pensando por que só deveríamos pensar nisso para crianças.