- Uma análise recente dos padrões de comentários de novas contas no Hacker News identificou diferenças claras em relação aos usuários antigos
- Entre os comentários de contas novas, 17,47% usaram EM dash (—), setas e outros símbolos especiais, cerca de 10 vezes mais do que os 1,83% das contas antigas
- Além disso, contas novas mostraram 18,67% de chance de mencionar termos relacionados a AI e LLM, acima dos 11,8% das contas antigas
- A análise comparou amostras de cerca de 700 comentários com base nos dados de
/newcomments e /noobcomments
- Essas estatísticas sugerem a possibilidade de aumento de contas automatizadas (bots) na comunidade HN
Observação de sinais incomuns nos comentários do HN
- Nos últimos meses, foi observado um aparente aumento repentino de bots no HN
- Algumas contas postam apenas sequências sem sentido ou números
- Exemplos incluem textos enigmáticos como “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” ou comentários de um único caractere como “1662476506” e “Аё”
- Além dessas contas, também há muitos comentários aparentemente normais, mas estranhos ou fora de contexto
Método de coleta e análise de dados
- As páginas
/newcomments (comentários recentes) e /noobcomments (comentários de contas novas) foram raspadas e comparadas
- Foram coletadas cerca de 700 amostras de comentários em cada grupo para calcular estatísticas simples
Principais resultados estatísticos
- 17,47% dos comentários de contas novas continham EM dash, setas ou outros símbolos especiais, contra 1,83% nas contas antigas, uma diferença de cerca de 10 vezes
- Significância estatística p = 7e-20
- 18,67% dos comentários de contas novas incluíam menções a AI ou LLM, acima dos 11,8% das contas antigas
- Significância estatística p = 0.0018
Interpretação e dúvidas
- Usuários humanos também podem usar EM dash, mas é difícil explicar a taxa excessiva de uso em contas novas
- Essa diferença sugere a possibilidade de existência de contas geradas automaticamente entre as novas contas do HN
Materiais de referência
- O código-fonte e os dados usados na análise estão disponíveis no repositório GitHub (vlofgren/hn-green-clankers)
- O Marginalia.nu publicou esse estudo como parte da série “Weird AI Crap”
1 comentários
Comentários do Hacker News
Antigamente, era comum usar em dash e en dash no HN
Eu simplesmente gostava de tipografia e tinha o hábito de usar dash no lugar de ponto e vírgula
Configurei um atalho de teclado com AHK, mas agora isso faz meu texto parecer escrito por um LLM
Já fui confundido com IA várias vezes, então é uma pena que uma preferência tipográfica que antes era divertida agora seja vista de forma negativa
Na verdade, é só que ainda existem pessoas que se importam com frases completas, ortografia, gramática e letras maiúsculas
Hoje em dia, parece que escrever de propósito de forma um pouco bagunçada virou um sinal de humanidade. Fico pensando que os chatbots do futuro também vão aprender isso
A frase fica um pouco estranha, mas acabo gostando porque transmite uma autenticidade artesanal
Mas o duplo espaço no fim da frase eu nunca vou abandonar. Minha professora de datilografia de 1993 dizia que as frases também precisam de espaço para respirar
Sempre usei no Mac com option+8 por costume, mas agora isso também parece estilo de LLM
Fizeram uma comparação estatística das palavras mais usadas em comentários de usuários novos do HN
Palavras como “ai”, “actually”, “code”, “real” e “built” aparecem com muito mais frequência em contas novas
Isso está organizado em detalhe na tabela de dados
Academicamente isso é inadequado, mas aqui dá para ver como um insight interessante
Em vez disso, calcular um tamanho de efeito como o Cohen’s d mostraria o tamanho real da diferença
Na maioria das vezes é só uma palavra de preenchimento sem função, que piora a clareza do texto
Levantaram a hipótese de que alguns bots estejam impulsionando artificialmente temas de IA
Eu gostava de usar em-dash desde muito antes, e agora fico chateado por não poder usar sem ser confundido com IA
No Mac, dá para inserir facilmente com
alt+shift+-, e parece que uma boa prática tipográfica foi contaminadaSe isso estiver presente, qualquer pontuação ainda vai soar humana
Compartilharam este guia de códigos Alt para Mac como forma de resgatar a tipografia
No fim, o modo único de expressão de uma pessoa sempre aparece
Os dados estão publicados como um banco SQLite no repositório do GitHub
Dá para rodar consultas SQL direto no navegador com o Datasette Lite
Olhando a lista de usuários que mais usaram em-dash, a maioria parece ser conta normal
sourceà consulta, ficam visíveis várias contas green com muito uso de em-dashIsso parece uma crise não só do HN, mas de todo o discurso online anônimo
Quando a confiança desmorona, a própria plataforma desmorona junto
Verificação de identidade parece a única solução, mas nem isso é perfeito
Apresentei essa ideia no meu blog
Parece que estamos chegando a uma era em que vai ser preciso provar que se é humano
Se o valor de um comentário for comprovado pela quantidade de hash calculado, confiança sem identidade continua sendo possível
Se um bot não consegue manter karma positivo, ele não ganha privilégios, então alguma defesa é possível mesmo sem verificação completa de identidade
Ultimamente tem chamado atenção no HN um padrão de comentário formal, mas sem graça
Algo na estrutura “this is [resumo] / not just x, it’s y / punchy ending”, repetido várias vezes
O perfil snowhale deixa isso bem claro como exemplo
Pode ser uma estratégia para montar uma rede de votos e manipular narrativas
Nos resultados de busca, várias contas repetem a mesma frase
Muitas respostas parecem não ler o contexto da conversa e passam uma sensação estranhamente desconectada
Ela finge neutralidade como um humano, mas carrega os vieses dos dados de treinamento
Talvez neutralidade completa seja uma ilusão
Se você acrescentar ao prompt “fale como eu, não escreva como IA, seja conciso”, metade do problema já se resolve
Ironicamente, por causa dessa polêmica, muita gente descobriu a existência do em-dash pela primeira vez
Agora já existem até vários novos usuários humanos colocando em-dash em toda frase
A maioria das contas bot que eu identifiquei quase não usa em-dash
Por exemplo, aplomb1026 publicou dois comentários longos com 30 segundos de intervalo
Isso fica claro vendo o primeiro comentário e o segundo comentário
Se a configuração não tivesse dado errado desse jeito, provavelmente a maioria das pessoas nem teria percebido
Outros bots citados foram dirtytoken7 e fdefitte
Pessoas formadas em literatura inglesa usam em-dash desde sempre, mas agora estão se contendo por medo de parecer IA
Se a IA começar a usar até a diérese no estilo da New Yorker, acho que vou enlouquecer
Mesmo assim, continuei usando internamente
E se, em vez de “não parecer IA”, a escolha fosse se misturar à revolta dos robôs?
Minha sugestão é ⸻ (dash U+2E3B)