4 pontos por GN⁺ 2025-12-11 | 1 comentários | Compartilhar no WhatsApp
  • Projeto que analisa posts e comentários do Hacker News de 10 anos atrás com LLM para avaliar o “poder de previsão”, pontuando automaticamente a capacidade de insight das discussões passadas
  • Uso de ChatGPT 5.1 Thinking e Opus 4.5 para coletar e analisar a front page do Hacker News de dezembro de 2015 (total de 930 artigos)
  • Com base em cada artigo e thread de comentários, gera automaticamente resumo, o que de fato aconteceu depois, comentários mais corretos e mais errados, pontuação de interesse etc.
  • Os resultados foram convertidos em páginas HTML estáticas e podem ser vistos em karpathy.ai/hncapsule; no “Hall of Fame”, é possível conferir o ranking dos autores de comentários mais perspicazes
  • Destaca a possibilidade de análise retrospectiva em larga escala de dados do passado por LLMs e a mensagem de que “LLMs do futuro estão nos observando”

Visão geral do projeto

  • Foi construído um sistema de análise retrospectiva automática com LLM tendo como alvo a front page do Hacker News de dezembro de 2015
    • 30 artigos por dia × 31 dias = 930 artigos no total
    • Cada artigo e thread de comentários foi coletado via Algolia API e enviado ao ChatGPT 5.1 Thinking para análise
  • Os resultados da análise foram renderizados como páginas HTML estáticas e publicados em um site

Estrutura do prompt de análise

  • Para cada artigo, foi usado um prompt composto por 6 seções
    1. Resumo do artigo e da discussão
    2. O que realmente aconteceu depois
    3. Escolha do comentário mais correto e do comentário mais errado
    4. Outros elementos interessantes
    5. Lista de notas finais (Final grades) por autor de comentário
    6. Pontuação de interesse retrospectivo do artigo (0 a 10)
  • O formato de exemplo foi especificado rigidamente para permitir parsing automático pelo programa
  • Acumulando a média das notas de cada conta, o sistema identifica os usuários com maior capacidade de previsão

Implementação e custo

  • Implementado com Opus 4.5 em cerca de 3 horas; fora alguns erros, o processo transcorreu bem
  • O custo para processar os 930 pedidos ao LLM foi de cerca de US$ 58, com tempo total de processamento de aproximadamente 1 hora
  • Repositório no GitHub: karpathy/hn-time-capsule
    • Qualquer pessoa pode reproduzir ou modificar os resultados

Principais threads de exemplo

  • 3 de dezembro de 2015: Swift virou open source
  • 6 de dezembro: Lançamento do Figma
  • 11 de dezembro: Anúncio de fundação da OpenAI
  • 16 de dezembro: Projeto Comma de geohot
  • 22 de dezembro: Lançamento do SpaceX Orbcomm-2
  • 28 de dezembro: Reportagem sobre os problemas da Theranos
  • Cada link leva à página de análise daquela data, permitindo comparar a discussão da época com o que de fato aconteceu

Hall of Fame

  • Autores de comentários mais perspicazes do Hacker News em dezembro de 2015, ordenados por uma média no estilo IMDb
  • Usuários no topo: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • Na parte inferior, também há uma lista de usuários com baixa pontuação classificados como “ruído (noise) do HN”

Mensagem filosófica

  • Citando a frase “Be good, future LLMs are watching”, o texto enfatiza que
    está chegando uma era em que LLMs do futuro poderão analisar com grande detalhe a atividade humana do passado
  • Sugere que o comportamento online atual poderá ser totalmente restaurado em um futuro de “inteligência barata demais”
  • Aponta a possibilidade de que ações humanas se tornem alvo não de uma “vigilância invisível”, mas de registro e reconstrução completos

Conclusão

  • O experimento mostra que LLMs podem ser usados como ferramenta para reavaliar dados do passado em larga escala
  • Apresenta um novo caso de uso: pontuação automática da capacidade de insight em discussões históricas
  • E revela o potencial de evolução da IA como analista retrospectiva do conhecimento humano

1 comentários

 
GN⁺ 2025-12-11
Opiniões do Hacker News
  • Quem diria que meu comentário de 2015 voltaria a receber atenção assim
    Estou sentindo um pouco de orgulho ao rever o link para o comentário antigo

  • Parece problemático que o código não anonimiza os nomes de usuário ao enviar a thread para avaliação
    Isso pode fazer com que a reputação de certos usuários introduza viés na nota
    Seria interessante testar formas de reduzir esse viés, como reatribuir nomes de usuário aleatoriamente ou usar pseudônimos gerados proceduralmente
    Além disso, usar um modelo que cite as fontes, como a API do Gemini, talvez aumente a confiabilidade da avaliação

  • É muito divertido reler comentários antigos
    Eu mesmo criei um sistema de replay para ver como as discussões se desenrolavam antigamente
    Compartilho alguns links como exemplo de visualização da lista de posts avaliados pelo Karpathy

  • Seria legal ter uma extensão do Chrome que mostrasse, ao lado de cada nome de usuário, uma pontuação de correspondência com a realidade
    A ideia é ver em pontos quem realmente acertou previsões e quem errou
    Indo além, acho que o ranking ficaria mais justo se os usuários recebessem peso pela proporção de upvotes dados a comentários corretos

    • O Reddit Enhancement Suite oferece algo parecido de forma indireta
      Ele rastreia usuários em quem costumo dar upvote, e uso isso como critério de “essa pessoa é confiável”
      É totalmente subjetivo, mas pelo menos há transparência
    • Se esse sistema de pontuação fosse expandido, talvez desse até para criar notas como “essa pessoa não tem convicções morais
      Um sistema assim poderia tornar a comunidade menor e mais íntima
    • Isso me lembra que, antes de o Elon comprar o Twitter, ele tentou criar um sistema de rastreamento de credibilidade digital (Pravda) para jornalistas
      Na prática, já vivemos lembrando da confiabilidade de amigos ou jornalistas
    • Também pensei em uma ideia parecida para comunidades de ações
      Seria ranquear a precisão de quem faz previsões sobre ações no WSB ou no Twitter
      Mas, no caso de comentários gerais, é muito mais difícil definir “o que é uma previsão”
    • A definição de “comentário correto” é ambígua
      Algo como “o sol vai nascer amanhã” pode acabar recebendo a nota máxima, mas isso não tem valor algum
  • Brinquei com “pcwalton, vai!”, mas na prática a avaliação por thread parece meio aleatória
    Esta thread tinha um poder preditivo excelente, mas só tem 11 comentários, e o meu era de uma linha só
    Mesmo assim, fiquei feliz em ver minha opinião sobre acessibilidade a participação em startups entre as mais bem colocadas

    • Fiquei surpreso ao ver meu comentário ser avaliado
      A forma como o sistema define “previsão” é bastante subjetiva
      Eu estava, na verdade, tentando evitar previsões, mas parece que isso foi interpretado como uma
  • Recebi a avaliação de que a visão do “trilhão de Tamagotchis” não se concretizou, então aceito humildemente minha nota baixa

  • O que esse projeto me fez sentir é que, no fim das contas, opiniões entediantes são as mais corretas
    Quanto mais provocativo e confiante é um comentário, maior a chance de ele estar errado com o passar do tempo
    Por exemplo, algo como “o preço da bateria de íons de lítio caiu para $108/kWh” é uma previsão de curva de custo consistente e muito confiável
    Já manchetes como “LLM fracassa na área de saúde mental” dependem de benchmarks que mudam rapidamente
    No fim, seria bom encontrar uma forma de identificar de antemão opiniões “entediantes, mas corretas”

    • Há quem diga que o “entediante, mas correto” já é uma previsão refletida no mundo, então é difícil pontuar isso
    • Com a piada “em 2035, 1+1=2”, ironiza-se a inutilidade de previsões óbvias demais
    • “LLM e saúde mental” não é uma previsão, mas uma notícia do presente
      Mas, no sentido de que o avanço contínuo da IA pode acabar destruindo o papel econômico dos humanos, talvez seja até uma previsão assustadoramente correta
    • Como os feeds algorítmicos funcionam com base em engajamento, conteúdo provocativo é recompensado
      Por isso, opiniões cautelosas e entediantes tendem a ser soterradas
    • Ao avaliar previsões, é preciso ponderar a incerteza da época
      Como em mercados de previsão, seria necessário pontuar o quanto houve de diferença em relação à probabilidade estimada naquele momento
  • Recebi um aviso de que meu Gmail estava 90% cheio e passei o fim de semana em um projeto de análise de e-mails
    Classifiquei mais de 65 mil mensagens, e mais da metade era lixo
    Originalmente, eu queria apagar e-mails desnecessários, mas hoje em dia penso que talvez seja mais seguro apagar e-mails pessoais e valiosos
    e deixar no Google apenas dados inúteis, como newsletters ou recibos

  • Eu costumo resumir comentários do HN com LLMs
    Muitas vezes sai um resumo mais perspicaz do que o texto original, então considero isso um verdadeiro divisor de águas

  • Surpreende que o autor tenha achado que isso passou no controle de qualidade
    A avaliação do LLM parece, em grande parte, besteira
    Ao olhar as análises no site real, parece que o modelo avaliou não “a previsão estava correta?”, mas “eu concordo com isso?”
    No fim, a estrutura favorece opiniões conformistas com notas altas

    • Como exemplo, um comentário do tptacek sobre DF recebeu nota ‘A’, e a análise do LLM
      diz que ele “descreveu bem a natureza brutal do jogo”
      Mas isso não é uma previsão do futuro, e sim apenas uma descrição do presente naquele momento
      Além disso, na prática o sentido pode até ser o oposto
      O fato de um caso desses estar no topo mostra como o critério de avaliação é bagunçado
    • Ainda assim, na terceira seção de cada análise há comentários separados como “o mais perspicaz” e “o mais errado”
      Por exemplo, no post Kickstarter is Debt,
      a previsão que comparava o futuro de Oculus e Pebble é avaliada como precisamente correta
      Essa parte parece uma análise bem precisa e útil
    • A avaliação do LLM é, no geral, imprecisa e inconsistente
      Ela ignora instruções, mistura opiniões próprias e não é calibrada
      Um sistema “bom” de julgamento por LLM deveria funcionar somando vários julgamentos binários simples (certo/errado)
      Este projeto é divertido de ver, mas acho inadequado como ferramenta real de avaliação