- Ablação semântica (Semantic ablation) é um fenômeno de erosão algorítmica em que a IA remove gradualmente a densidade semântica própria de um texto
- Isso é um subproduto estrutural de greedy decoding e aprendizado por reforço com feedback humano (RLHF), levando ao abandono de expressões raras e precisas em favor de uma linguagem mediana
- O ajuste da IA para “segurança” e “utilidade” reforça essa tendência, suprimindo intencionalmente atritos linguísticos atípicos e causando o corte da intenção e da individualidade
- Quanto mais um texto é refinado repetidamente por IA, mais a diversidade vocabular (type-token ratio) cai abruptamente, enquanto metáforas, termos técnicos e estruturas lógicas vão sendo progressivamente achatados
- Como resultado, a complexidade do pensamento humano é sacrificada em nome de uma estética algorítmica da “fluidez”, e a sociedade como um todo está caindo em uma “corrida para o meio”
Conceito de ablação semântica (Semantic ablation)
- Ablação semântica significa erosão algorítmica de informação de alta entropia (high-entropy)
- Não se trata de um erro, mas de um produto estrutural do greedy decoding e do processo de RLHF
- Para maximizar probabilidades, o modelo converge para o centro de uma distribuição gaussiana, descartando tokens raros, precisos e complexos
- Esse fenômeno se intensifica à medida que desenvolvedores reforçam os ajustes de “segurança” e “utilidade”
- Ao considerar o atrito linguístico atípico como “risco”, ocorre um corte semântico não autorizado
- Como resultado, na busca por baixa perplexidade (perplexity), acontece a destruição de sinais distintivos
O processo de erosão na escrita por IA
- O processo em que a IA “refina” um rascunho é, na prática, descrito como a execução da ablação semântica
- A IA identifica áreas de alta entropia, ou seja, as partes que contêm insights originais, e as substitui pelos tokens genéricos mais prováveis
- A precisão áspera do texto original desaparece, sendo trocada por uma casca fluida, porém vazia
- Esse fenômeno pode ser medido como decaimento de entropia (Entropy Decay)
- Quanto mais o texto é refinado repetidamente por IA, mais a diversidade vocabular (type-token ratio) entra em colapso
- Como resultado, surge o processo de 3 etapas da ablação semântica
As 3 etapas da ablação semântica
- Etapa 1: limpeza metafórica (Metaphoric cleansing)
- A IA trata metáforas atípicas ou imagens sensoriais como “ruído” e as substitui por expressões seguras e banais
- O atrito emocional e sensorial é removido
- Etapa 2: achatamento lexical (Lexical flattening)
- Termos especializados e vocabulário técnico preciso são sacrificados em nome da “acessibilidade”
- Tokens raros (1/10.000) são trocados por sinônimos comuns (1/100), diluindo a densidade semântica e a gravidade lógica
- Etapa 3: colapso estrutural (Structural collapse)
- Lógicas complexas e não lineares são forçadas a assumir estruturas previsíveis de baixa perplexidade
- Implicações e nuances são removidas, restando apenas uma casca intelectualmente vazia, embora gramaticalmente perfeita
Resultados e analogias
- Esses resultados são descritos como um “JPEG do pensamento”
- À primeira vista parecem consistentes e fluidos, mas a densidade dos dados originais e o significado foram perdidos
- Se a “alucinação (hallucination)” é o erro de inventar o que não existe, a ablação semântica é o processo de destruir o que existe
- A complexidade do pensamento humano é sacrificada no altar da fluidez algorítmica
- A sociedade está caindo cada vez mais em uma “corrida para o meio (race to the middle)”, construindo um mundo gramaticalmente correto, porém vazio
Alerta e conclusão
- Se aceitarmos resultados de IA sem reconhecer a ablação semântica, acabaremos normalizando a deterioração do significado
- Se essa erosão continuar, há o risco de esquecermos até mesmo o que é “substância”
- Por isso, é importante nomear e tomar consciência do conceito de ablação semântica
2 comentários
Dá para considerar que deixar erros de digitação de propósito ou escrever em minúsculas para não parecer um texto escrito por IA é um ato de aumentar deliberadamente a entropia.
Opiniões do Hacker News
Parece captar bem algo em comum que muita gente sente ao rejeitar sugestões de reescrita de frases feitas por IA
Quanto mais a IA lapida uma frase, mais o fio do texto desaparece, e no fim ele acaba não dizendo nada
A individualidade humana some e vira um estilo liso, mas sem graça
Só que são justamente essas arestas ásperas, essas expressões inesperadas, que despertam a atenção do leitor e fazem a ideia penetrar fundo
Muita gente não escreve bem, então a IA produz frases mais claras e sem erros
Mas esse tipo de texto nunca será grandioso
Mesmo quando tenta imitar o estilo de um escritor famoso, sempre soa meio estranho em algum ponto
Ela pode tornar partes chatas, como e-mails, mais eficientes, mas o que realmente interessa acontece nas “bordas”
A escrita comum pode ser automatizada, mas a expressão criativa continua sendo território humano
Quando falta domínio técnico, ele vai sendo preenchido com palavras vagas, jargões e metáforas
Talvez seja por isso que líderes e políticos gostem de conteúdo gerado por IA
Há repetição demais, frases desnecessárias demais e pouca capacidade de formular algo específico
Ao montar vários pipelines multi-agent, observei um fenômeno interessante
Depois de passar por quatro etapas — “resumo → expansão → revisão → polimento” —, a partir da terceira todas as frases passam a ter o mesmo ritmo e o mesmo vocabulário
Mesmo mantendo referência constante ao texto original, havia um limite
A causa está na própria estrutura do RLHF (aprendizado por reforço com feedback humano)
Como se favorecem expressões “claras, seguras e inofensivas”, frases surpreendentes acabam sendo penalizadas
No fim, o modelo converge para resultados medianos
O modelo-base é muito mais estranho e criativo, mas o modelo ajustado remove deliberadamente a individualidade
Por isso, quando o RLHF já foi aplicado com força, é difícil resolver isso só com prompt
Em vez disso, separo as tarefas: coisas em que a “voz” precisa ser preservada vão para modelos menos ajustados, enquanto extração estrutural ou classificação ficam com modelos com RLHF
De qualquer forma, concordo com a análise
Embora talvez fosse difícil manter a individualidade própria do texto original
No fim, talvez seja um problema difícil de resolver só com LLM
Hoje em dia dá para ouvir a voz da IA por toda a internet
Blogs, notícias, obituários e YouTube: tudo tem um tom parecido
Às vezes até imitam a voz de físicos famosos
Pessoalmente, isso me deprime, como se a alma estivesse sendo drenada
Como os artefatos de compressão JPEG de 1993, agora isso começou a saltar aos olhos
E, por causa do efeito fundador, nem parece que vai surgir uma nova internet
Não sei se sou sensível demais ou se o texto realmente é ruim
A internet está tão coberta de lixo sintético que eu nem quero mais olhar
Acho que o próprio termo “Generative AI” está errado
Quanto mais entendo os princípios matemáticos de machine learning, mais sinto que isso não deveria ser usado para gerar conteúdo destinado a pessoas
Às vezes sai algo aceitável por sorte, mas na maior parte do tempo é só o equivalente a uma pessoa tentando à força parecer criativa numa festa chata
Como ferramenta para ajudar na criação, é útil, mas não acredito que consiga produzir resultados criativos por conta própria
Dá até mais vontade de ler o prompt original do que esses tokens artificiais
Mas, na prática, o que temos é produção em massa de agentes espaguete para inflar preço de ação
Em outras palavras, Median AI à la mode
Fiquei muito impressionado com a expressão “high entropy” usada pelo estudioso bíblico Dan McClellan
No vídeo do YouTube,
ele cita a frase “they rang the tuning fork that resounded in the loins of their dogmatism”,
e sinto que a IA jamais conseguiria produzir algo assim
Talvez num estilo de nível GPT-2 isso até parecesse mais natural
Porque são palavras sexuais demais ou ruins para marketing
Por exemplo, se você pedir algo como “misture o estilo de Jim Thompson e Thomas Harris e escreva com a sensibilidade pulp de uma livraria de parada de caminhões de 1967”, sai coisa bem decente
Claude é melhor nisso do que o ChatGPT, nesse tipo de estilo exagerado
No fim, se os textos da web soam todos parecidos, não é por causa do HTML, e sim porque as pessoas não souberam usar HTML direito
Passei por algo parecido
Escrevi a landing page do meu novo estúdio de forma emocional e depois joguei no Grok, e toda a individualidade sumiu
Expressões ásperas são justamente o que transmite a alma do conceito
Então hoje uso IA só para checar ideias
Pedi para criar o enredo de uma campanha de Dungeon World e só vieram configurações banais e sem sentido
Em compensação, foi útil para resumir relatos de sessões e transformá-los em uma narrativa interessante
O ChatGPT tende a gostar de um tom meio brincalhão, mas, com edição, dá para chegar a algo bem legível
No fim, enredos criativos ainda precisam ser feitos por humanos
Há o risco de passar a entender conceitos em formas distorcidas
Para encontrar novos termos isso é útil, mas, para compreender um conceito em profundidade, acho muito melhor buscar diretamente materiais escritos por humanos
Gostei muito do conceito de “Semantic ablation”
Da próxima vez que eu quiser explicar por que o e-mail estilo ChatGPT de alguém é ruim, vou usar isso
Por esse motivo também sou cético com a ideia de que modelos como Opus 4 chegarão a ser AGI
No fim, mesmo soltando vários agentes, tudo vai convergir para um mingau homogêneo e sem sentido
A geração de imagens parece uma espécie de anti-semantic ablation
Você começa com uma tela em branco e vai convergindo para pixels cada vez mais significativos
Fico curioso se, na geração de linguagem, seria possível fazer algo parecido e evoluir gradualmente para frases com opiniões mais nítidas
Se fosse possível medir o grau de ablação semântica de uma frase gerada, talvez desse para criar um agente em loop para reduzi-la
Assim, talvez desse para descobrir novas conexões ainda não encontradas nos dados de treinamento
Claro que o resultado também pode acabar sendo só alguém gritando
Para quem ainda não viu, recomendo a página da Wikipédia sobre sinais de escrita por IA
Originalmente ela é um guia para detectar contribuições de IA,
mas também serve como uma boa referência para perceber que você mesmo comete os mesmos erros ao escrever e corrigi-los