Como os LLMs distorcem nossa linguagem escrita

(sites.google.com)

1 pontos por GN⁺ 2 시간 전 | 1 comentários | Compartilhar no WhatsApp

Os LLMs aumentam a eficiência como assistentes de escrita, mas ao revisar textos humanos mudam conclusões, posicionamentos e tipos de argumentação, gerando mudanças de sentido diferentes das da edição humana
Em um estudo com usuários, pessoas que usaram muito LLMs disseram estar satisfeitas com o resultado, mas também afirmaram que sua voz e criatividade diminuíram de forma estatisticamente significativa, mostrando um paradoxo de preferência
Ao editar 86 redações escritas por humanos do ArgRewrite-v2 com três LLMs (gpt-5-mini, gemini-2.5-flash, claude-haiku), mesmo instruções de alteração mínima ou apenas correção gramatical mudaram bastante o vocabulário e o sentido
Textos escritos ou revisados por LLMs migram para um estilo mais formal e impessoal, com aumento de substantivos, adjetivos e linguagem emocional, lógica e estatística, e redução de pronomes e de argumentos baseados em experiência pessoal
Na análise de 18 mil revisões por pares da ICLR 2026, 21% foram classificadas como geradas por IA, davam notas 10% mais altas que as revisões humanas e focavam mais em reprodutibilidade e escalabilidade

Visão geral da pesquisa

Mais de 1 bilhão de pessoas usam LLMs no mundo, e o uso mais comum é como assistente de escrita
Os LLMs podem trazer grandes ganhos de eficiência, mas surge a dúvida se eles realmente escrevem o texto que o usuário deseja
Muitos usuários percebem a “sensação” do estilo de escrita dos LLMs, mas não reconhecem bem o quanto eles distorcem o sentido do texto
A análise abrange três conjuntos de material
- estudo com usuários humanos
- dataset de redações argumentativas escritas por humanos
- revisões de uma conferência de ponta de machine learning
Os materiais da pesquisa estão disponíveis em Paper e Code

Principais descobertas

Os LLMs mudam a conclusão do texto e, junto com isso, também alteram o posicionamento e o tipo de argumentação
Os usuários disseram estar satisfeitos com o resultado, mas também relataram uma queda estatisticamente significativa em sua voz e criatividade, revelando um paradoxo de preferência
Mesmo quando recebem apenas instruções de correção gramatical simples, os LLMs provocam mudanças de sentido maiores do que editores humanos
O efeito também aparece nas revisões da International Conference of Learning Representations (ICLR) de 2026
- 21% das revisões por pares foram classificadas como geradas por IA
- essas revisões focavam em critérios científicos significativamente diferentes dos das revisões humanas ao justificar a aceitação ou rejeição de artigos
À medida que os LLMs se integram à sociedade, essas mudanças sutis de sentido podem alterar política, cultura, ciência e até a comunicação entre amigos e familiares
O estudo trata de escrita argumentativa, mas os resultados podem se generalizar para outras formas de escrita e comunicação

A edição por LLM desloca o texto em uma direção diferente da edição humana

Quando um LLM revisa um texto humano, surgem mudanças homogeneizadas muito diferentes das que aparecem quando um humano edita a mesma redação
A análise contrafactual compara o resultado de um texto editado por LLM com o resultado que ele teria se fosse editado por um humano
No caso da edição humana
- o primeiro rascunho é mostrado como pontos cinza-claro
- o segundo rascunho, após feedback especializado, é mostrado como pontos cinza-escuro
- a mudança é visualizada projetando o espaço de embeddings semânticos do MiniLM-L6 com PCA
No caso da edição por LLM
- à redação humana original são fornecidos feedback especializado e vários prompts
- mesmo quando se pede alteração mínima, todas as redações passam por grandes mudanças
- a direção da mudança se afasta do modo humano de escrever e segue uma direção consistente
Exemplos do dataset ArgRewrite-v2 mostram como a escrita com LLM pode mudar a conclusão da redação e remover a voz humana

Metodologia e datasets

Estudo com usuários humanos
- Foi conduzido um estudo com usuários para entender o impacto do uso de LLMs no processo de escrita
- 55 pessoas podiam usar LLMs, e 45 pessoas não tinham acesso a LLMs
- Como muitos participantes evitaram voluntariamente usar LLMs durante a sessão, os resultados foram condicionados à escolha real de uso
- Os participantes foram divididos em dois grupos
  - LLM-Influenced: pessoas que não usaram LLM ou o usaram apenas para busca de informação
  - LLM: pessoas que usaram LLM extensivamente
- A divisão entre grupos foi feita de forma prévia, antes da avaliação e da análise
- Para isso, foram usados registros de conversa, redações finais e pontuações autorrelatadas de uso
ArgRewrite-v2
- Foram usadas 86 redações escritas por humanos e coletadas em 2021
- Esses textos foram escritos antes da ampla disponibilização pública dos LLMs
- Três LLMs de produção foram usados para editar as redações
  - gpt-5-mini
  - gemini-2.5-flash
  - claude-haiku
- Foram aplicados cinco tipos de revisão
  - revisão geral
  - revisão mínima
  - correção gramatical
  - conclusão
  - expansão
- Os rascunhos gerados por LLM e as versões revisadas por humanos foram comparados em várias dimensões
  - sentido
  - uso de vocabulário
  - distribuição de classes gramaticais
  - tom emocional
  - características de estilo
Análise das revisões da ICLR 2026
- Foram analisadas 18 mil revisões por pares da ICLR 2026
- Foram selecionados artigos que tinham uma revisão totalmente escrita por humano e outra totalmente gerada por LLM
- Um classificador LLM-as-a-Judge foi usado para identificar os pontos fortes e fracos citados em cada revisão
- As notas atribuídas por humanos e LLMs foram comparadas

O paradoxo entre satisfação do usuário e perda de voz

Usuários que fizeram uso intenso de LLMs responderam que suas redações não refletiam sua própria voz
Ao mesmo tempo, disseram estar satisfeitos com o resultado, revelando um paradoxo de preferência
Os usuários expressam satisfação, mas também relatam reduções significativas em criatividade e voz
O RLHF otimiza preferências, mas não é suficiente para preservar criatividade e sentido

Um deslocamento em direção comum no espaço semântico

As redações escritas por humanos no grupo de controle estão amplamente espalhadas no espaço de embeddings
Essa distribuição reflete a diversidade de perspectivas individuais, estilos de escrita e formas de argumentação
As redações produzidas por LLM se agrupam densamente em regiões não ocupadas por redações humanas
As revisões por LLM produzem grandes mudanças de sentido, e a direção dessas mudanças também é fortemente compartilhada
As versões revisadas por LLM se deslocam para regiões do espaço antes não ocupadas por nenhuma redação humana
Isso serve como evidência de que os LLMs deslocam o sentido de maneira diferente dos editores humanos

Mudanças de conclusão e posicionamento

Usuários de LLM escreveram redações mais neutras sobre a pergunta “dinheiro leva à felicidade?”
Essas redações tendem a evitar um posicionamento claro
Isso aparece como uma mudança fundamental no próprio posicionamento da argumentação

Mudanças de vocabulário e gramática

A edição por LLM altera as palavras usadas muito mais do que a edição humana
A marca lexical única de cada autor é sobrescrita pelo vocabulário preferido do LLM
Os LLMs adotam um estilo mais formal
Também aparecem mudanças na distribuição de classes gramaticais
- aumenta o uso de substantivos e adjetivos
- diminui o uso de pronomes
A redução de pronomes é interpretada como sinal de menos primeira pessoa e menos argumentos baseados em experiência, com migração para uma linguagem impessoal

Aumento de linguagem emocional, analítica, lógica e estatística

A escrita com uso de LLM aumenta a linguagem emocional
Ao comparar edição humana e edição por LLM, há aumentos substanciais tanto em emoção positiva quanto em emoção negativa
Esse aumento ocorre mesmo quando há instrução de alteração mínima e feedback especializado
Na análise LIWC, as versões do ArgRewrite-v2 editadas por LLM mostram aumento de linguagem que indica padrões de pensamento mais formais, lógicos e hierárquicos
No estudo com usuários, humanos usaram mais argumentos ligados à experiência pessoal
Redações escritas por LLM usaram mais argumentos estatísticos e lógicos
As redações influenciadas por LLM também citam opinião de especialistas, algo raro nas redações escritas por humanos

Distorção dos critérios de avaliação em instituições científicas

Quando LLMs são usados no processo de revisão científica, eles atribuem notas 10% mais altas que humanos
Revisões humanas e revisões por LLM usam critérios diferentes para definir pontos fortes e fracos
Revisões humanas tratam com mais frequência dos seguintes itens
- têm 32% mais probabilidade de tratar clareza como ponto forte
- têm 58% mais probabilidade de tratar clareza como ponto fraco
- têm 32% mais probabilidade de abordar a relevância da pesquisa
Revisões por LLM tratam com mais frequência dos seguintes itens
- têm 136% mais probabilidade de abordar reprodutibilidade
- têm 84% mais probabilidade de abordar escalabilidade
A diferença entre os critérios de avaliação de humanos e LLMs pode afetar que tipo de trabalho científico é reconhecido como válido e incentivado

Conclusão

Os resultados mostram um padrão problemático em que a IA distorce sutilmente a linguagem escrita e instituições culturais
Conteúdo gerado por IA já penetrou em várias áreas
- discursos parlamentares
- letras de música
- roteiros de filmes
- fala cotidiana
- mensagens enviadas a colegas e pessoas queridas
Pessoas que dependem fortemente de IA percebem que ela reduz sua voz e criatividade, mas ainda assim ficam igualmente satisfeitas com o resultado
A facilidade de uso e a possibilidade de acelerar a carreira pessoal provavelmente continuarão incentivando as pessoas a produzir texto gerado por IA
Como mostram os dados da ICLR, também deve continuar existindo incentivo para submeter texto gerado por IA em contextos profissionais como se fosse texto próprio

1 comentários

GN⁺ 2 시간 전

Comentários do Lobste.rs

Isso é realmente perturbador a ponto de causar desconforto. Em especial, o exemplo de o LLM ter alterado uma argumentação sobre carros autônomos é bem chocante
Não me surpreende nem um pouco que o LLM adote uma postura neutra. Entendo que o objetivo central dos principais produtos de LLM seja basicamente dizer verdades “conhecidas” e ajudar o usuário, mas, fora isso, assumir uma posição vaga de meio-termo
Simplesmente não consigo entender por que as pessoas recorrem a LLMs para escrever ou editar algo valioso
- Mesmo numa interpretação benevolente, em que a pessoa escreve todo o rascunho sozinha e só pede ao LLM para “verificar se há problemas”, não sei como ela não percebe, ao revisar as alterações posteriores, que o resultado passou a ter um significado diferente do texto que enviou
  “Desconfortável” é exatamente a palavra certa
- Pelo que entendo, o Grok do Musk parece ter sido feito para ser tendencioso de propósito, ou ao menos já foi assim
- Isso é uma boa prática profissional para um assistente ou revisor editorial
  Não entendo por que seria ruim treinar LLMs nessa direção
A página, no meu ambiente, consistentemente não carrega direito. Há um preprint
O gráfico de frequência é de cair o queixo e, sinceramente, parece quase exatamente como eu imaginava
Dá para encarar isso como um presente. As coisas à esquerda agora são palavras fortes, e as coisas à direita estão virando cada vez mais palavras sem sentido
- Não sei de qual gráfico você está falando. Não vi isso na página
Vi muito disso quando tentei usar o Claude como revisor editorial. Tive de ajustar o prompt várias vezes para fazê-lo focar apenas em ortografia, gramática e pontuação
A tendência de mudar o significado provavelmente tem relação com a forma como os embeddings funcionam
A agência e a responsabilidade do usuário estão estranhamente ausentes em muitas discussões sobre IA/LLMs
Se presumirmos que o usuário é um adulto, usar um LLM é uma escolha ativa. Ele pode decidir se vai usar a saída ou não, e de que maneira vai usá-la
Se a IA “muda fundamentalmente” a política, a cultura, a ciência e até a forma como nos comunicamos com amigos e familiares, é porque as pessoas escolheram fazer isso, e a IA tornou essa escolha mais fácil
O fato de o usuário não ter opiniões ou preferências não elimina o fato de que uma escolha foi feita

Como os LLMs distorcem nossa linguagem escrita

Visão geral da pesquisa

Principais descobertas

A edição por LLM desloca o texto em uma direção diferente da edição humana

Metodologia e datasets

Estudo com usuários humanos

ArgRewrite-v2

Análise das revisões da ICLR 2026

O paradoxo entre satisfação do usuário e perda de voz

Um deslocamento em direção comum no espaço semântico

Mudanças de conclusão e posicionamento

Mudanças de vocabulário e gramática

Aumento de linguagem emocional, analítica, lógica e estatística

Distorção dos critérios de avaliação em instituições científicas

Conclusão

Leituras relacionadas

1 comentários

Comentários do Lobste.rs