- Em um estudo de análise de sentimento de postagens do Hacker News, cerca de 65% do total foi classificado com sentimento negativo, e essas postagens registraram pontuações mais altas em média
- A pontuação média das postagens negativas foi de 35,6 pontos, contra 28 pontos de média geral, confirmando um prêmio de desempenho de cerca de 27%
- A análise foi conduzida sobre 32 mil postagens e 340 mil comentários, e um viés negativo consistente apareceu em 6 tipos de modelos
- Os modelos usados incluem DistilBERT, BERT Multi, RoBERTa, Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B, e o dashboard final usa resultados do DistilBERT por motivos de eficiência
- Predomina uma negatividade centrada em críticas construtivas, como críticas técnicas, insatisfação com a indústria e frustração com APIs, o que sugere uma correlação entre engajamento e controvérsia
Resultado da análise de sentimento do Hacker News
- A pontuação média das postagens do Hacker News é 28, e as postagens com sentimento negativo registram média de 35,6, indicando maior engajamento
- O desempenho das postagens negativas é 27% maior que a média geral
- O estudo trata da dinâmica de atenção no HN (Hacker News), incluindo curvas de decaimento, anexação preferencial, probabilidade de sobrevivência e previsão de engajamento inicial
- O artigo em preprint relacionado está disponível no SSRN
Dados e composição dos modelos
- O alvo da análise foi de 32 mil postagens e 340 mil comentários
- Cerca de 65% do total foi classificado com sentimento negativo
- O pesquisador mencionou a possibilidade de o classificador ter um viés negativo, mas a mesma tendência foi confirmada em todos os 6 modelos
- Os modelos utilizados foram DistilBERT, BERT Multi, RoBERTa (baseados em transformers) e Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B (baseados em LLM)
- A distribuição de sentimento varia entre os modelos, mas a inclinação negativa se mantém em comum
- O dashboard final usa resultados do DistilBERT, que operam com eficiência em um pipeline baseado em Cloudflare
Definição e características do sentimento negativo
- O conteúdo classificado como “negativo” inclui críticas técnicas, ceticismo em relação a anúncios, insatisfação com práticas da indústria e frustração relacionada a APIs
- A maior parte da negatividade consiste em críticas substanciais, e não ataques pessoais
- Críticas técnicas têm natureza diferente de ataques pessoais
- O pesquisador reconhece ambas as possibilidades: se a negatividade gera engajamento, ou se conteúdos controversos atraem ao mesmo tempo expressões negativas e atenção
Planos de divulgação futura
- O pesquisador deve divulgar em breve todo o código, o dataset e um dashboard para arquivistas do HN
2 comentários
As pessoas se interessam mais por fofoca e ruído. [included generalização precipitada]
Opiniões no Hacker News
Acho que o classificador do OP está fazendo duas suposições que afetam o resultado
Estou escrevendo um comentário crítico agora, mas isso não é necessariamente “negativo”. Na verdade, só é possível criticar porque os dados e as conclusões do OP estão claros. Esse tipo de crítica construtiva é justamente sinal de uma boa discussão
Está parcialmente certo que a postura cética é classificada como negativa. Os dados de treino do SST-2 tratam avaliação crítica como algo negativo. Mas aqui “negativo” não significa hostil, e sim avaliativo. A cultura crítica do HN é lida como negativa por esse tipo de modelo, mas isso é natural pelas características do discurso técnico.
A neutralidade existe como uma pontuação contínua perto de 0,5. Como os usuários do HN tendem a tomar posições fortes, aparece uma distribuição mais polarizada. Vale a pena testar um modelo de 3 classes no futuro.
Seu comentário é crítico, mas é um debate de alta qualidade. Vejo a negatividade do HN não como hostilidade, e sim como crítica construtiva que impulsiona a participação
Link do modelo DistilBERT SST-2
Os posts negativos que publiquei tiveram desempenho melhor do que os neutros ou positivos.
O título “Richard Stallman is Dead” teve a maior taxa de cliques, e outro modelo prevê a probabilidade de a razão comentários/votos ser maior que 0,5. Clickbait, debates de gênero e temas sobre carros tiveram desempenho especialmente forte.
É difícil acreditar numa pontuação média de 35. Antigamente a média era algo como 8, então fiquei curioso sobre o critério de amostragem
Pode ser que posts com nota 0 tenham ficado de fora, o que teria puxado a média para cima. Obrigado pelo feedback; vou revisar isso antes de publicar o artigo. Seu classificador também é interessante
Vejo um fenômeno parecido nos comentários. Comentários curtos e sarcásticos têm muito mais repercussão do que textos longos e analíticos.
Comentários longos e caprichados acabam ignorados, enquanto comentários curtos escritos no impulso às vezes “explodem”, o que é frustrante
O HN não gosta de piadas, exceto quando vêm acompanhadas de explicação
Acho que dá para sentir melhor esse critério de engajamento quando se mantém um blog
Se “negativo” inclui crítica técnica, insatisfação com a indústria e frustração com APIs, então a maior parte das discussões no HN entra nessa categoria.
Comentar só “gostei” num texto promocional da OpenAI não agrega nada; análise crítica é justamente o tipo de participação valiosa.
Acho que posts populares sem comentários são, na verdade, prova de que o site está funcionando bem
Nós mesmos filtramos para preferir reações negativas. Conteúdo positivo é mais autocontido e não estimula resposta, enquanto conteúdo negativo provoca interação
Por isso somos mais atraídos por notícias negativas e apenas passamos por cima das positivas. Esse é o cerne da economia da atenção
Crítica técnica é diferente de ataque pessoal. A negatividade do HN é, em sua maior parte, crítica construtiva.
Quando o cinismo passa do ponto, inevitavelmente aparece “reclamação sobre a reclamação”.
Eu prefiro ouvir “você está com algo preso no dente” a receber elogios
Como a moderação do HN remove rapidamente conteúdo hostil, o que sobra é, na maioria das vezes, crítica produtiva.
O ponto interessante é que essa “negatividade” está associada a 27% mais engajamento. Ou seja, comunidades técnicas valorizam crítica mais do que propaganda
Vou deixar explícito no artigo que “sentimento negativo” significa crítica avaliativa segundo o modelo SST-2, e não fala tóxica
Quando o acesso à API do Reddit ainda era possível, fiz um experimento no app leitor rif bloqueando subreddits de sentimento negativo.
Depois de bloquear centenas deles, sobraram apenas conteúdos positivos sobre animais e hobbies. Percebi o quanto o Reddit é centrado na negatividade e, ao mesmo tempo, que sem isso ele fica até meio entediante
Link da lista de bloqueio
Esses posts dão uma sensação de bots conversando com bots. Suspeito que o Reddit deixa essa estrutura existir para aumentar a exibição de anúncios
Na internet, não existe combinação mais poderosa do que reclamar ou corrigir alguém.
Como usuário de ESL (English as a Second Language), um dos primeiros termos de internet que aprendi foi “flamewar”
Segundo o artigo, a desigualdade de atenção no HN é muito severa. O coeficiente de Gini é 0,89, maior que o do Twitter
Isso provavelmente se deve à estrutura de exposição do HN. Posts novos começam em /newest e, se não recebem atenção inicial de um pequeno grupo, praticamente desaparecem.
Diferentemente do Reddit, onde existe uma exposição padrão, no HN é preciso passar pelo filtro inicial para chegar à página principal
Engenheiros trabalham resolvendo problemas, então naturalmente desenvolvem pensamento crítico.
Em feiras do setor, os engenheiros abordavam tudo de braços cruzados e com frieza, enquanto a comunidade maker era cheia de energia positiva.
No fim, é a diferença entre “o copo está meio vazio” e “o copo está meio cheio”