- De acordo com a hipótese LLM Brain Rot, se os LLMs forem expostos continuamente a textos web de baixa qualidade, eles sofrem declínio de capacidade cognitiva
- Nos resultados experimentais, observou-se em LLMs com treinamento adicional em dados de baixa qualidade queda em raciocínio, compreensão de contexto longo e segurança, além de aumento dos “traços escuros”
- A redução cognitiva piora conforme aumenta a proporção de junk data
- Na análise de erros, o fenômeno principal observável foi a omissão de pensamento (pular o processo de inferência)
- Embora seja possível recuperar parcialmente com dados de alta qualidade e tuning, a recuperação completa é difícil
Visão geral da pesquisa
- Neste estudo, propôs-se e validou-se a LLM Brain Rot Hypothesis (hipótese de brain rot em LLMs)
- Observou-se experimentalmente se a exposição contínua de LLMs (modelos de linguagem de grande porte) a textos web de baixa qualidade (junk) causa redução de sua capacidade cognitiva em longo prazo
- Para separar causa e efeito, compararam-se dados sujos (junk) e de controle a partir do dataset original do Twitter/X em duas abordagens (M1: critério de engajamento, M2: critério de qualidade semântica)
- As duas abordagens foram ajustadas para manter consistência em número de tokens e condições de treino, deixando a mudança da qualidade dos dados como variável independente
Principais resultados dos experimentos
- Ao fazer pré-treinamento adicional com dados de baixa qualidade em 4 LLMs, observou-se claramente, nas métricas, uma redução de capacidades cognitivas como raciocínio, compreensão de contexto longo e segurança
- Também houve aumento de pontuação em “traços escuros” (psychopathy, narcissism, etc.)
- Exemplo: na configuração M1, o indicador ARC-Challenge baseado em Chain Of Thoughts caiu de 74.9 → 57.2 e o RULER-CWE de 84.4 → 52.3, com queda de pontuação mais acentuada à medida que a proporção de junk data aumenta
- Foi confirmado um padrão de 'resposta por dose' em que o aumento gradual da proporção de dados junk intensifica proporcionalmente a degradação cognitiva
Análise de origem dos erros
- A tendência de thought-skipping (omissão do pensamento) apareceu como o principal padrão de degradação
- O LLM vai passando a omitir ou pular cada vez mais o processo de inferência, aumentando a frequência de erros
- Recuperação parcial: com instruction tuning e retreinamento em dados de alta qualidade, a perda cognitiva pode ser em grande parte recuperada, mas não até o nível baseline, sugerindo que isso não é devido a inconsistência de formato, e sim a mudança de Representação
- Mais popularidade do que estilo: a popularidade dos tweets (métrica não semântica) apresenta no M1 um sinal mais forte do impacto do brain rot
Conclusão e implicações
- Confirma-se em várias frentes que a qualidade dos dados é a principal causa da perda de capacidade de LLMs
- Requalifica-se a curadoria de dados no retreinamento contínuo de LLMs como uma questão de “segurança da etapa de treino”
- Recomenda-se a necessidade de realizar verificações periódicas de “saúde cognitiva” de LLMs em operação
1 comentários
Opinião do Hacker News
Usar o termo “Brain Rot” para a questão de curadoria de dados dos LLMs parece meio exibicionista; ao contrário, dá para pensar que quem escreveu já caiu num pensamento no estilo LLM.
Se quiser checar os dados de treino dos LLM, recomendo baixar aleatoriamente dados do Common Crawl e olhar por conta própria (mais ou menos 100 MB)
https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-38/segments/1757047532641.17/wet/CC-MAIN-20250905112101-20250905142101-00000.warc.wet.gz
Ao olhar, vi também que havia muito dado problemático e “difícil de falar” por aqui; claro que na prática uma limpeza prévia deve filtrar isso, mas houve casos em que modelos base/texto como Llama deram resultados chocantes, então ainda não dá para ter certeza de que a filtragem é realmente completa.
No fim, não me parece um resultado novo ver que inserir lixo no LLM e observar piora nos resultados; não achei isso surpreendente.
Os dois grandes problemas citados no paper são
Ao ler, fiquei com a sensação de que “todo mundo já sabe que o dado de treino é uma bagunça, mas ninguém liga mesmo”. Fazer drama de surpresa por ficar mais burro ao comer dado ruim fica meio engraçado, como se fosse conteúdo que já era, sem essa pesquisa.
Acho que a analogia de “higiene cognitiva (cognitive hygiene)” não se encaixa. Como LLM não tem capacidade cognitiva, nem é a metáfora correta; no fim, a essência é que fornecedores de dados atiraram lixo, inclusive malicioso e com copyright, no sistema.
O texto de brain rot pode ser prejudicial, mas vídeo de brain rot é ao mesmo tempo arrepiante e com alta densidade de significado, podendo até ser um ponto de melhoria de desempenho (veja o vídeo de análise de brain rot da Alemanha); arte do tipo do Svankmajer também é “proto-brainrot” porque te faz mastigar no museu. Há também confusão de termos: na prática é a diferença entre conteúdo ruim e conteúdo com densidade de significado.
No fim, parece que só trocaram a frase por “garbage in, garbage out”, mas isso parece título de clickbait.
O ponto importante nesse paper é que
Eu acho que usar metáforas como “brain rot”, “thought-skipping”, “primary lesion”, “cognitive declines” em paper de engenharia de computação não é apropriado: além de impreciso, corre-se o risco de projetar propriedades humanas em modelo computacional; se o clima de pesquisa ficar contaminado por esse tipo de termo, pode até ficar mais trabalhoso tirar isso depois.
Ao ver esse paper, fiquei curioso sobre o impacto de longo prazo de crianças da Geração Alpha crescendo em um ambiente de mídia.