Como os LLMs distorcem nossa linguagem escrita
(sites.google.com)- Os LLMs aumentam a eficiência como assistentes de escrita, mas ao revisar textos humanos mudam conclusões, posicionamentos e tipos de argumentação, gerando mudanças de sentido diferentes das da edição humana
- Em um estudo com usuários, pessoas que usaram muito LLMs disseram estar satisfeitas com o resultado, mas também afirmaram que sua voz e criatividade diminuíram de forma estatisticamente significativa, mostrando um paradoxo de preferência
- Ao editar 86 redações escritas por humanos do ArgRewrite-v2 com três LLMs (gpt-5-mini, gemini-2.5-flash, claude-haiku), mesmo instruções de alteração mínima ou apenas correção gramatical mudaram bastante o vocabulário e o sentido
- Textos escritos ou revisados por LLMs migram para um estilo mais formal e impessoal, com aumento de substantivos, adjetivos e linguagem emocional, lógica e estatística, e redução de pronomes e de argumentos baseados em experiência pessoal
- Na análise de 18 mil revisões por pares da ICLR 2026, 21% foram classificadas como geradas por IA, davam notas 10% mais altas que as revisões humanas e focavam mais em reprodutibilidade e escalabilidade
Visão geral da pesquisa
- Mais de 1 bilhão de pessoas usam LLMs no mundo, e o uso mais comum é como assistente de escrita
- Os LLMs podem trazer grandes ganhos de eficiência, mas surge a dúvida se eles realmente escrevem o texto que o usuário deseja
- Muitos usuários percebem a “sensação” do estilo de escrita dos LLMs, mas não reconhecem bem o quanto eles distorcem o sentido do texto
- A análise abrange três conjuntos de material
- estudo com usuários humanos
- dataset de redações argumentativas escritas por humanos
- revisões de uma conferência de ponta de machine learning
- Os materiais da pesquisa estão disponíveis em Paper e Code
Principais descobertas
- Os LLMs mudam a conclusão do texto e, junto com isso, também alteram o posicionamento e o tipo de argumentação
- Os usuários disseram estar satisfeitos com o resultado, mas também relataram uma queda estatisticamente significativa em sua voz e criatividade, revelando um paradoxo de preferência
- Mesmo quando recebem apenas instruções de correção gramatical simples, os LLMs provocam mudanças de sentido maiores do que editores humanos
- O efeito também aparece nas revisões da International Conference of Learning Representations (ICLR) de 2026
- 21% das revisões por pares foram classificadas como geradas por IA
- essas revisões focavam em critérios científicos significativamente diferentes dos das revisões humanas ao justificar a aceitação ou rejeição de artigos
- À medida que os LLMs se integram à sociedade, essas mudanças sutis de sentido podem alterar política, cultura, ciência e até a comunicação entre amigos e familiares
- O estudo trata de escrita argumentativa, mas os resultados podem se generalizar para outras formas de escrita e comunicação
A edição por LLM desloca o texto em uma direção diferente da edição humana
- Quando um LLM revisa um texto humano, surgem mudanças homogeneizadas muito diferentes das que aparecem quando um humano edita a mesma redação
- A análise contrafactual compara o resultado de um texto editado por LLM com o resultado que ele teria se fosse editado por um humano
- No caso da edição humana
- o primeiro rascunho é mostrado como pontos cinza-claro
- o segundo rascunho, após feedback especializado, é mostrado como pontos cinza-escuro
- a mudança é visualizada projetando o espaço de embeddings semânticos do MiniLM-L6 com PCA
- No caso da edição por LLM
- à redação humana original são fornecidos feedback especializado e vários prompts
- mesmo quando se pede alteração mínima, todas as redações passam por grandes mudanças
- a direção da mudança se afasta do modo humano de escrever e segue uma direção consistente
- Exemplos do dataset ArgRewrite-v2 mostram como a escrita com LLM pode mudar a conclusão da redação e remover a voz humana
Metodologia e datasets
-
Estudo com usuários humanos
- Foi conduzido um estudo com usuários para entender o impacto do uso de LLMs no processo de escrita
- 55 pessoas podiam usar LLMs, e 45 pessoas não tinham acesso a LLMs
- Como muitos participantes evitaram voluntariamente usar LLMs durante a sessão, os resultados foram condicionados à escolha real de uso
- Os participantes foram divididos em dois grupos
- LLM-Influenced: pessoas que não usaram LLM ou o usaram apenas para busca de informação
- LLM: pessoas que usaram LLM extensivamente
- A divisão entre grupos foi feita de forma prévia, antes da avaliação e da análise
- Para isso, foram usados registros de conversa, redações finais e pontuações autorrelatadas de uso
-
ArgRewrite-v2
- Foram usadas 86 redações escritas por humanos e coletadas em 2021
- Esses textos foram escritos antes da ampla disponibilização pública dos LLMs
- Três LLMs de produção foram usados para editar as redações
- gpt-5-mini
- gemini-2.5-flash
- claude-haiku
- Foram aplicados cinco tipos de revisão
- revisão geral
- revisão mínima
- correção gramatical
- conclusão
- expansão
- Os rascunhos gerados por LLM e as versões revisadas por humanos foram comparados em várias dimensões
- sentido
- uso de vocabulário
- distribuição de classes gramaticais
- tom emocional
- características de estilo
-
Análise das revisões da ICLR 2026
- Foram analisadas 18 mil revisões por pares da ICLR 2026
- Foram selecionados artigos que tinham uma revisão totalmente escrita por humano e outra totalmente gerada por LLM
- Um classificador LLM-as-a-Judge foi usado para identificar os pontos fortes e fracos citados em cada revisão
- As notas atribuídas por humanos e LLMs foram comparadas
O paradoxo entre satisfação do usuário e perda de voz
- Usuários que fizeram uso intenso de LLMs responderam que suas redações não refletiam sua própria voz
- Ao mesmo tempo, disseram estar satisfeitos com o resultado, revelando um paradoxo de preferência
- Os usuários expressam satisfação, mas também relatam reduções significativas em criatividade e voz
- O RLHF otimiza preferências, mas não é suficiente para preservar criatividade e sentido
Um deslocamento em direção comum no espaço semântico
- As redações escritas por humanos no grupo de controle estão amplamente espalhadas no espaço de embeddings
- Essa distribuição reflete a diversidade de perspectivas individuais, estilos de escrita e formas de argumentação
- As redações produzidas por LLM se agrupam densamente em regiões não ocupadas por redações humanas
- As revisões por LLM produzem grandes mudanças de sentido, e a direção dessas mudanças também é fortemente compartilhada
- As versões revisadas por LLM se deslocam para regiões do espaço antes não ocupadas por nenhuma redação humana
- Isso serve como evidência de que os LLMs deslocam o sentido de maneira diferente dos editores humanos
Mudanças de conclusão e posicionamento
- Usuários de LLM escreveram redações mais neutras sobre a pergunta “dinheiro leva à felicidade?”
- Essas redações tendem a evitar um posicionamento claro
- Isso aparece como uma mudança fundamental no próprio posicionamento da argumentação
Mudanças de vocabulário e gramática
- A edição por LLM altera as palavras usadas muito mais do que a edição humana
- A marca lexical única de cada autor é sobrescrita pelo vocabulário preferido do LLM
- Os LLMs adotam um estilo mais formal
- Também aparecem mudanças na distribuição de classes gramaticais
- aumenta o uso de substantivos e adjetivos
- diminui o uso de pronomes
- A redução de pronomes é interpretada como sinal de menos primeira pessoa e menos argumentos baseados em experiência, com migração para uma linguagem impessoal
Aumento de linguagem emocional, analítica, lógica e estatística
- A escrita com uso de LLM aumenta a linguagem emocional
- Ao comparar edição humana e edição por LLM, há aumentos substanciais tanto em emoção positiva quanto em emoção negativa
- Esse aumento ocorre mesmo quando há instrução de alteração mínima e feedback especializado
- Na análise LIWC, as versões do ArgRewrite-v2 editadas por LLM mostram aumento de linguagem que indica padrões de pensamento mais formais, lógicos e hierárquicos
- No estudo com usuários, humanos usaram mais argumentos ligados à experiência pessoal
- Redações escritas por LLM usaram mais argumentos estatísticos e lógicos
- As redações influenciadas por LLM também citam opinião de especialistas, algo raro nas redações escritas por humanos
Distorção dos critérios de avaliação em instituições científicas
- Quando LLMs são usados no processo de revisão científica, eles atribuem notas 10% mais altas que humanos
- Revisões humanas e revisões por LLM usam critérios diferentes para definir pontos fortes e fracos
- Revisões humanas tratam com mais frequência dos seguintes itens
- têm 32% mais probabilidade de tratar clareza como ponto forte
- têm 58% mais probabilidade de tratar clareza como ponto fraco
- têm 32% mais probabilidade de abordar a relevância da pesquisa
- Revisões por LLM tratam com mais frequência dos seguintes itens
- têm 136% mais probabilidade de abordar reprodutibilidade
- têm 84% mais probabilidade de abordar escalabilidade
- A diferença entre os critérios de avaliação de humanos e LLMs pode afetar que tipo de trabalho científico é reconhecido como válido e incentivado
Conclusão
- Os resultados mostram um padrão problemático em que a IA distorce sutilmente a linguagem escrita e instituições culturais
- Conteúdo gerado por IA já penetrou em várias áreas
- discursos parlamentares
- letras de música
- roteiros de filmes
- fala cotidiana
- mensagens enviadas a colegas e pessoas queridas
- Pessoas que dependem fortemente de IA percebem que ela reduz sua voz e criatividade, mas ainda assim ficam igualmente satisfeitas com o resultado
- A facilidade de uso e a possibilidade de acelerar a carreira pessoal provavelmente continuarão incentivando as pessoas a produzir texto gerado por IA
- Como mostram os dados da ICLR, também deve continuar existindo incentivo para submeter texto gerado por IA em contextos profissionais como se fosse texto próprio
1 comentários
Comentários do Lobste.rs
Isso é realmente perturbador a ponto de causar desconforto. Em especial, o exemplo de o LLM ter alterado uma argumentação sobre carros autônomos é bem chocante
Não me surpreende nem um pouco que o LLM adote uma postura neutra. Entendo que o objetivo central dos principais produtos de LLM seja basicamente dizer verdades “conhecidas” e ajudar o usuário, mas, fora isso, assumir uma posição vaga de meio-termo
Simplesmente não consigo entender por que as pessoas recorrem a LLMs para escrever ou editar algo valioso
“Desconfortável” é exatamente a palavra certa
Não entendo por que seria ruim treinar LLMs nessa direção
A página, no meu ambiente, consistentemente não carrega direito. Há um preprint
O gráfico de frequência é de cair o queixo e, sinceramente, parece quase exatamente como eu imaginava
Dá para encarar isso como um presente. As coisas à esquerda agora são palavras fortes, e as coisas à direita estão virando cada vez mais palavras sem sentido
Vi muito disso quando tentei usar o Claude como revisor editorial. Tive de ajustar o prompt várias vezes para fazê-lo focar apenas em ortografia, gramática e pontuação
A tendência de mudar o significado provavelmente tem relação com a forma como os embeddings funcionam
A agência e a responsabilidade do usuário estão estranhamente ausentes em muitas discussões sobre IA/LLMs
Se presumirmos que o usuário é um adulto, usar um LLM é uma escolha ativa. Ele pode decidir se vai usar a saída ou não, e de que maneira vai usá-la
Se a IA “muda fundamentalmente” a política, a cultura, a ciência e até a forma como nos comunicamos com amigos e familiares, é porque as pessoas escolheram fazer isso, e a IA tornou essa escolha mais fácil
O fato de o usuário não ter opiniões ou preferências não elimina o fato de que uma escolha foi feita