Avaliação automática com LLM de discussões do Hacker News de 10 anos atrás

(karpathy.bearblog.dev)

4 pontos por GN⁺ 2025-12-11 | 1 comentários | Compartilhar no WhatsApp

Projeto que analisa posts e comentários do Hacker News de 10 anos atrás com LLM para avaliar o “poder de previsão”, pontuando automaticamente a capacidade de insight das discussões passadas
Uso de ChatGPT 5.1 Thinking e Opus 4.5 para coletar e analisar a front page do Hacker News de dezembro de 2015 (total de 930 artigos)
Com base em cada artigo e thread de comentários, gera automaticamente resumo, o que de fato aconteceu depois, comentários mais corretos e mais errados, pontuação de interesse etc.
Os resultados foram convertidos em páginas HTML estáticas e podem ser vistos em karpathy.ai/hncapsule; no “Hall of Fame”, é possível conferir o ranking dos autores de comentários mais perspicazes
Destaca a possibilidade de análise retrospectiva em larga escala de dados do passado por LLMs e a mensagem de que “LLMs do futuro estão nos observando”

Visão geral do projeto

Foi construído um sistema de análise retrospectiva automática com LLM tendo como alvo a front page do Hacker News de dezembro de 2015
- 30 artigos por dia × 31 dias = 930 artigos no total
- Cada artigo e thread de comentários foi coletado via Algolia API e enviado ao ChatGPT 5.1 Thinking para análise
Os resultados da análise foram renderizados como páginas HTML estáticas e publicados em um site
- Página de resultados: https://karpathy.ai/hncapsule/
- Os dados originais (data.zip) também estão disponíveis no mesmo endereço

Estrutura do prompt de análise

Para cada artigo, foi usado um prompt composto por 6 seções
1. Resumo do artigo e da discussão
2. O que realmente aconteceu depois
3. Escolha do comentário mais correto e do comentário mais errado
4. Outros elementos interessantes
5. Lista de notas finais (Final grades) por autor de comentário
6. Pontuação de interesse retrospectivo do artigo (0 a 10)
O formato de exemplo foi especificado rigidamente para permitir parsing automático pelo programa
Acumulando a média das notas de cada conta, o sistema identifica os usuários com maior capacidade de previsão

Implementação e custo

Implementado com Opus 4.5 em cerca de 3 horas; fora alguns erros, o processo transcorreu bem
O custo para processar os 930 pedidos ao LLM foi de cerca de US$ 58, com tempo total de processamento de aproximadamente 1 hora
Repositório no GitHub: karpathy/hn-time-capsule
- Qualquer pessoa pode reproduzir ou modificar os resultados

Principais threads de exemplo

3 de dezembro de 2015: Swift virou open source
6 de dezembro: Lançamento do Figma
11 de dezembro: Anúncio de fundação da OpenAI
16 de dezembro: Projeto Comma de geohot
22 de dezembro: Lançamento do SpaceX Orbcomm-2
28 de dezembro: Reportagem sobre os problemas da Theranos
Cada link leva à página de análise daquela data, permitindo comparar a discussão da época com o que de fato aconteceu

Hall of Fame

Autores de comentários mais perspicazes do Hacker News em dezembro de 2015, ordenados por uma média no estilo IMDb
Usuários no topo: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
Na parte inferior, também há uma lista de usuários com baixa pontuação classificados como “ruído (noise) do HN”

Mensagem filosófica

Citando a frase “Be good, future LLMs are watching”, o texto enfatiza que
está chegando uma era em que LLMs do futuro poderão analisar com grande detalhe a atividade humana do passado
Sugere que o comportamento online atual poderá ser totalmente restaurado em um futuro de “inteligência barata demais”
Aponta a possibilidade de que ações humanas se tornem alvo não de uma “vigilância invisível”, mas de registro e reconstrução completos

Conclusão

O experimento mostra que LLMs podem ser usados como ferramenta para reavaliar dados do passado em larga escala
Apresenta um novo caso de uso: pontuação automática da capacidade de insight em discussões históricas
E revela o potencial de evolução da IA como analista retrospectiva do conhecimento humano

1 comentários

GN⁺ 2025-12-11

Opiniões do Hacker News

Quem diria que meu comentário de 2015 voltaria a receber atenção assim
Estou sentindo um pouco de orgulho ao rever o link para o comentário antigo
Parece problemático que o código não anonimiza os nomes de usuário ao enviar a thread para avaliação
Isso pode fazer com que a reputação de certos usuários introduza viés na nota
Seria interessante testar formas de reduzir esse viés, como reatribuir nomes de usuário aleatoriamente ou usar pseudônimos gerados proceduralmente
Além disso, usar um modelo que cite as fontes, como a API do Gemini, talvez aumente a confiabilidade da avaliação
É muito divertido reler comentários antigos
Eu mesmo criei um sistema de replay para ver como as discussões se desenrolavam antigamente
Compartilho alguns links como exemplo de visualização da lista de posts avaliados pelo Karpathy
- Swift is Open Source
- Launch of Figma
- Introducing OpenAI
- Self-driving car by iPhone hacker
- SpaceX Orbcomm-2 Mission
- At Theranos, Many Strategies and Snags
- Também queria tentar fazer uma análise de sentimento por horário do dia
  Parece haver uma diferença bem grande entre as opiniões da manhã e da noite, então seria interessante confirmar isso numericamente
- O site é realmente muito divertido. Obrigado
Seria legal ter uma extensão do Chrome que mostrasse, ao lado de cada nome de usuário, uma pontuação de correspondência com a realidade
A ideia é ver em pontos quem realmente acertou previsões e quem errou
Indo além, acho que o ranking ficaria mais justo se os usuários recebessem peso pela proporção de upvotes dados a comentários corretos
- O Reddit Enhancement Suite oferece algo parecido de forma indireta
  Ele rastreia usuários em quem costumo dar upvote, e uso isso como critério de “essa pessoa é confiável”
  É totalmente subjetivo, mas pelo menos há transparência
- Se esse sistema de pontuação fosse expandido, talvez desse até para criar notas como “essa pessoa não tem convicções morais”
  Um sistema assim poderia tornar a comunidade menor e mais íntima
- Isso me lembra que, antes de o Elon comprar o Twitter, ele tentou criar um sistema de rastreamento de credibilidade digital (Pravda) para jornalistas
  Na prática, já vivemos lembrando da confiabilidade de amigos ou jornalistas
- Também pensei em uma ideia parecida para comunidades de ações
  Seria ranquear a precisão de quem faz previsões sobre ações no WSB ou no Twitter
  Mas, no caso de comentários gerais, é muito mais difícil definir “o que é uma previsão”
- A definição de “comentário correto” é ambígua
  Algo como “o sol vai nascer amanhã” pode acabar recebendo a nota máxima, mas isso não tem valor algum
Brinquei com “pcwalton, vai!”, mas na prática a avaliação por thread parece meio aleatória
Esta thread tinha um poder preditivo excelente, mas só tem 11 comentários, e o meu era de uma linha só
Mesmo assim, fiquei feliz em ver minha opinião sobre acessibilidade a participação em startups entre as mais bem colocadas
- Fiquei surpreso ao ver meu comentário ser avaliado
  A forma como o sistema define “previsão” é bastante subjetiva
  Eu estava, na verdade, tentando evitar previsões, mas parece que isso foi interpretado como uma
Recebi a avaliação de que a visão do “trilhão de Tamagotchis” não se concretizou, então aceito humildemente minha nota baixa
O que esse projeto me fez sentir é que, no fim das contas, opiniões entediantes são as mais corretas
Quanto mais provocativo e confiante é um comentário, maior a chance de ele estar errado com o passar do tempo
Por exemplo, algo como “o preço da bateria de íons de lítio caiu para $108/kWh” é uma previsão de curva de custo consistente e muito confiável
Já manchetes como “LLM fracassa na área de saúde mental” dependem de benchmarks que mudam rapidamente
No fim, seria bom encontrar uma forma de identificar de antemão opiniões “entediantes, mas corretas”
- Há quem diga que o “entediante, mas correto” já é uma previsão refletida no mundo, então é difícil pontuar isso
- Com a piada “em 2035, 1+1=2”, ironiza-se a inutilidade de previsões óbvias demais
- “LLM e saúde mental” não é uma previsão, mas uma notícia do presente
  Mas, no sentido de que o avanço contínuo da IA pode acabar destruindo o papel econômico dos humanos, talvez seja até uma previsão assustadoramente correta
- Como os feeds algorítmicos funcionam com base em engajamento, conteúdo provocativo é recompensado
  Por isso, opiniões cautelosas e entediantes tendem a ser soterradas
- Ao avaliar previsões, é preciso ponderar a incerteza da época
  Como em mercados de previsão, seria necessário pontuar o quanto houve de diferença em relação à probabilidade estimada naquele momento
Recebi um aviso de que meu Gmail estava 90% cheio e passei o fim de semana em um projeto de análise de e-mails
Classifiquei mais de 65 mil mensagens, e mais da metade era lixo
Originalmente, eu queria apagar e-mails desnecessários, mas hoje em dia penso que talvez seja mais seguro apagar e-mails pessoais e valiosos
e deixar no Google apenas dados inúteis, como newsletters ou recibos
Eu costumo resumir comentários do HN com LLMs
Muitas vezes sai um resumo mais perspicaz do que o texto original, então considero isso um verdadeiro divisor de águas
Surpreende que o autor tenha achado que isso passou no controle de qualidade
A avaliação do LLM parece, em grande parte, besteira
Ao olhar as análises no site real, parece que o modelo avaliou não “a previsão estava correta?”, mas “eu concordo com isso?”
No fim, a estrutura favorece opiniões conformistas com notas altas
- Como exemplo, um comentário do tptacek sobre DF recebeu nota ‘A’, e a análise do LLM
  diz que ele “descreveu bem a natureza brutal do jogo”
  Mas isso não é uma previsão do futuro, e sim apenas uma descrição do presente naquele momento
  Além disso, na prática o sentido pode até ser o oposto
  O fato de um caso desses estar no topo mostra como o critério de avaliação é bagunçado
- Ainda assim, na terceira seção de cada análise há comentários separados como “o mais perspicaz” e “o mais errado”
  Por exemplo, no post Kickstarter is Debt,
  a previsão que comparava o futuro de Oculus e Pebble é avaliada como precisamente correta
  Essa parte parece uma análise bem precisa e útil
- A avaliação do LLM é, no geral, imprecisa e inconsistente
  Ela ignora instruções, mistura opiniões próprias e não é calibrada
  Um sistema “bom” de julgamento por LLM deveria funcionar somando vários julgamentos binários simples (certo/errado)
  Este projeto é divertido de ver, mas acho inadequado como ferramenta real de avaliação

Avaliação automática com LLM de discussões do Hacker News de 10 anos atrás

Visão geral do projeto

Estrutura do prompt de análise

Implementação e custo

Principais threads de exemplo

Hall of Fame

Mensagem filosófica

Conclusão

Leituras relacionadas

1 comentários

Opiniões do Hacker News