1 pontos por GN⁺ 2 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Os LLMs aumentam a eficiência como assistentes de escrita, mas ao revisar textos humanos mudam conclusões, posicionamentos e tipos de argumentação, gerando mudanças de sentido diferentes das da edição humana
  • Em um estudo com usuários, pessoas que usaram muito LLMs disseram estar satisfeitas com o resultado, mas também afirmaram que sua voz e criatividade diminuíram de forma estatisticamente significativa, mostrando um paradoxo de preferência
  • Ao editar 86 redações escritas por humanos do ArgRewrite-v2 com três LLMs (gpt-5-mini, gemini-2.5-flash, claude-haiku), mesmo instruções de alteração mínima ou apenas correção gramatical mudaram bastante o vocabulário e o sentido
  • Textos escritos ou revisados por LLMs migram para um estilo mais formal e impessoal, com aumento de substantivos, adjetivos e linguagem emocional, lógica e estatística, e redução de pronomes e de argumentos baseados em experiência pessoal
  • Na análise de 18 mil revisões por pares da ICLR 2026, 21% foram classificadas como geradas por IA, davam notas 10% mais altas que as revisões humanas e focavam mais em reprodutibilidade e escalabilidade

Visão geral da pesquisa

  • Mais de 1 bilhão de pessoas usam LLMs no mundo, e o uso mais comum é como assistente de escrita
  • Os LLMs podem trazer grandes ganhos de eficiência, mas surge a dúvida se eles realmente escrevem o texto que o usuário deseja
  • Muitos usuários percebem a “sensação” do estilo de escrita dos LLMs, mas não reconhecem bem o quanto eles distorcem o sentido do texto
  • A análise abrange três conjuntos de material
    • estudo com usuários humanos
    • dataset de redações argumentativas escritas por humanos
    • revisões de uma conferência de ponta de machine learning
  • Os materiais da pesquisa estão disponíveis em Paper e Code

Principais descobertas

  • Os LLMs mudam a conclusão do texto e, junto com isso, também alteram o posicionamento e o tipo de argumentação
  • Os usuários disseram estar satisfeitos com o resultado, mas também relataram uma queda estatisticamente significativa em sua voz e criatividade, revelando um paradoxo de preferência
  • Mesmo quando recebem apenas instruções de correção gramatical simples, os LLMs provocam mudanças de sentido maiores do que editores humanos
  • O efeito também aparece nas revisões da International Conference of Learning Representations (ICLR) de 2026
    • 21% das revisões por pares foram classificadas como geradas por IA
    • essas revisões focavam em critérios científicos significativamente diferentes dos das revisões humanas ao justificar a aceitação ou rejeição de artigos
  • À medida que os LLMs se integram à sociedade, essas mudanças sutis de sentido podem alterar política, cultura, ciência e até a comunicação entre amigos e familiares
  • O estudo trata de escrita argumentativa, mas os resultados podem se generalizar para outras formas de escrita e comunicação

A edição por LLM desloca o texto em uma direção diferente da edição humana

  • Quando um LLM revisa um texto humano, surgem mudanças homogeneizadas muito diferentes das que aparecem quando um humano edita a mesma redação
  • A análise contrafactual compara o resultado de um texto editado por LLM com o resultado que ele teria se fosse editado por um humano
  • No caso da edição humana
    • o primeiro rascunho é mostrado como pontos cinza-claro
    • o segundo rascunho, após feedback especializado, é mostrado como pontos cinza-escuro
    • a mudança é visualizada projetando o espaço de embeddings semânticos do MiniLM-L6 com PCA
  • No caso da edição por LLM
    • à redação humana original são fornecidos feedback especializado e vários prompts
    • mesmo quando se pede alteração mínima, todas as redações passam por grandes mudanças
    • a direção da mudança se afasta do modo humano de escrever e segue uma direção consistente
  • Exemplos do dataset ArgRewrite-v2 mostram como a escrita com LLM pode mudar a conclusão da redação e remover a voz humana

Metodologia e datasets

  • Estudo com usuários humanos

    • Foi conduzido um estudo com usuários para entender o impacto do uso de LLMs no processo de escrita
    • 55 pessoas podiam usar LLMs, e 45 pessoas não tinham acesso a LLMs
    • Como muitos participantes evitaram voluntariamente usar LLMs durante a sessão, os resultados foram condicionados à escolha real de uso
    • Os participantes foram divididos em dois grupos
      • LLM-Influenced: pessoas que não usaram LLM ou o usaram apenas para busca de informação
      • LLM: pessoas que usaram LLM extensivamente
    • A divisão entre grupos foi feita de forma prévia, antes da avaliação e da análise
    • Para isso, foram usados registros de conversa, redações finais e pontuações autorrelatadas de uso
  • ArgRewrite-v2

    • Foram usadas 86 redações escritas por humanos e coletadas em 2021
    • Esses textos foram escritos antes da ampla disponibilização pública dos LLMs
    • Três LLMs de produção foram usados para editar as redações
      • gpt-5-mini
      • gemini-2.5-flash
      • claude-haiku
    • Foram aplicados cinco tipos de revisão
      • revisão geral
      • revisão mínima
      • correção gramatical
      • conclusão
      • expansão
    • Os rascunhos gerados por LLM e as versões revisadas por humanos foram comparados em várias dimensões
      • sentido
      • uso de vocabulário
      • distribuição de classes gramaticais
      • tom emocional
      • características de estilo
  • Análise das revisões da ICLR 2026

    • Foram analisadas 18 mil revisões por pares da ICLR 2026
    • Foram selecionados artigos que tinham uma revisão totalmente escrita por humano e outra totalmente gerada por LLM
    • Um classificador LLM-as-a-Judge foi usado para identificar os pontos fortes e fracos citados em cada revisão
    • As notas atribuídas por humanos e LLMs foram comparadas

O paradoxo entre satisfação do usuário e perda de voz

  • Usuários que fizeram uso intenso de LLMs responderam que suas redações não refletiam sua própria voz
  • Ao mesmo tempo, disseram estar satisfeitos com o resultado, revelando um paradoxo de preferência
  • Os usuários expressam satisfação, mas também relatam reduções significativas em criatividade e voz
  • O RLHF otimiza preferências, mas não é suficiente para preservar criatividade e sentido

Um deslocamento em direção comum no espaço semântico

  • As redações escritas por humanos no grupo de controle estão amplamente espalhadas no espaço de embeddings
  • Essa distribuição reflete a diversidade de perspectivas individuais, estilos de escrita e formas de argumentação
  • As redações produzidas por LLM se agrupam densamente em regiões não ocupadas por redações humanas
  • As revisões por LLM produzem grandes mudanças de sentido, e a direção dessas mudanças também é fortemente compartilhada
  • As versões revisadas por LLM se deslocam para regiões do espaço antes não ocupadas por nenhuma redação humana
  • Isso serve como evidência de que os LLMs deslocam o sentido de maneira diferente dos editores humanos

Mudanças de conclusão e posicionamento

  • Usuários de LLM escreveram redações mais neutras sobre a pergunta “dinheiro leva à felicidade?”
  • Essas redações tendem a evitar um posicionamento claro
  • Isso aparece como uma mudança fundamental no próprio posicionamento da argumentação

Mudanças de vocabulário e gramática

  • A edição por LLM altera as palavras usadas muito mais do que a edição humana
  • A marca lexical única de cada autor é sobrescrita pelo vocabulário preferido do LLM
  • Os LLMs adotam um estilo mais formal
  • Também aparecem mudanças na distribuição de classes gramaticais
    • aumenta o uso de substantivos e adjetivos
    • diminui o uso de pronomes
  • A redução de pronomes é interpretada como sinal de menos primeira pessoa e menos argumentos baseados em experiência, com migração para uma linguagem impessoal

Aumento de linguagem emocional, analítica, lógica e estatística

  • A escrita com uso de LLM aumenta a linguagem emocional
  • Ao comparar edição humana e edição por LLM, há aumentos substanciais tanto em emoção positiva quanto em emoção negativa
  • Esse aumento ocorre mesmo quando há instrução de alteração mínima e feedback especializado
  • Na análise LIWC, as versões do ArgRewrite-v2 editadas por LLM mostram aumento de linguagem que indica padrões de pensamento mais formais, lógicos e hierárquicos
  • No estudo com usuários, humanos usaram mais argumentos ligados à experiência pessoal
  • Redações escritas por LLM usaram mais argumentos estatísticos e lógicos
  • As redações influenciadas por LLM também citam opinião de especialistas, algo raro nas redações escritas por humanos

Distorção dos critérios de avaliação em instituições científicas

  • Quando LLMs são usados no processo de revisão científica, eles atribuem notas 10% mais altas que humanos
  • Revisões humanas e revisões por LLM usam critérios diferentes para definir pontos fortes e fracos
  • Revisões humanas tratam com mais frequência dos seguintes itens
    • têm 32% mais probabilidade de tratar clareza como ponto forte
    • têm 58% mais probabilidade de tratar clareza como ponto fraco
    • têm 32% mais probabilidade de abordar a relevância da pesquisa
  • Revisões por LLM tratam com mais frequência dos seguintes itens
    • têm 136% mais probabilidade de abordar reprodutibilidade
    • têm 84% mais probabilidade de abordar escalabilidade
  • A diferença entre os critérios de avaliação de humanos e LLMs pode afetar que tipo de trabalho científico é reconhecido como válido e incentivado

Conclusão

  • Os resultados mostram um padrão problemático em que a IA distorce sutilmente a linguagem escrita e instituições culturais
  • Conteúdo gerado por IA já penetrou em várias áreas
    • discursos parlamentares
    • letras de música
    • roteiros de filmes
    • fala cotidiana
    • mensagens enviadas a colegas e pessoas queridas
  • Pessoas que dependem fortemente de IA percebem que ela reduz sua voz e criatividade, mas ainda assim ficam igualmente satisfeitas com o resultado
  • A facilidade de uso e a possibilidade de acelerar a carreira pessoal provavelmente continuarão incentivando as pessoas a produzir texto gerado por IA
  • Como mostram os dados da ICLR, também deve continuar existindo incentivo para submeter texto gerado por IA em contextos profissionais como se fosse texto próprio

1 comentários

 
GN⁺ 2 시간 전
Comentários do Lobste.rs
  • Isso é realmente perturbador a ponto de causar desconforto. Em especial, o exemplo de o LLM ter alterado uma argumentação sobre carros autônomos é bem chocante
    Não me surpreende nem um pouco que o LLM adote uma postura neutra. Entendo que o objetivo central dos principais produtos de LLM seja basicamente dizer verdades “conhecidas” e ajudar o usuário, mas, fora isso, assumir uma posição vaga de meio-termo
    Simplesmente não consigo entender por que as pessoas recorrem a LLMs para escrever ou editar algo valioso

    • Mesmo numa interpretação benevolente, em que a pessoa escreve todo o rascunho sozinha e só pede ao LLM para “verificar se há problemas”, não sei como ela não percebe, ao revisar as alterações posteriores, que o resultado passou a ter um significado diferente do texto que enviou
      “Desconfortável” é exatamente a palavra certa
    • Pelo que entendo, o Grok do Musk parece ter sido feito para ser tendencioso de propósito, ou ao menos já foi assim
    • Isso é uma boa prática profissional para um assistente ou revisor editorial
      Não entendo por que seria ruim treinar LLMs nessa direção
  • A página, no meu ambiente, consistentemente não carrega direito. Há um preprint

  • O gráfico de frequência é de cair o queixo e, sinceramente, parece quase exatamente como eu imaginava
    Dá para encarar isso como um presente. As coisas à esquerda agora são palavras fortes, e as coisas à direita estão virando cada vez mais palavras sem sentido

    • Não sei de qual gráfico você está falando. Não vi isso na página
  • Vi muito disso quando tentei usar o Claude como revisor editorial. Tive de ajustar o prompt várias vezes para fazê-lo focar apenas em ortografia, gramática e pontuação
    A tendência de mudar o significado provavelmente tem relação com a forma como os embeddings funcionam

  • A agência e a responsabilidade do usuário estão estranhamente ausentes em muitas discussões sobre IA/LLMs
    Se presumirmos que o usuário é um adulto, usar um LLM é uma escolha ativa. Ele pode decidir se vai usar a saída ou não, e de que maneira vai usá-la
    Se a IA “muda fundamentalmente” a política, a cultura, a ciência e até a forma como nos comunicamos com amigos e familiares, é porque as pessoas escolheram fazer isso, e a IA tornou essa escolha mais fácil
    O fato de o usuário não ter opiniões ou preferências não elimina o fato de que uma escolha foi feita