1 pontos por GN⁺ 2025-12-19 | 1 comentários | Compartilhar no WhatsApp
  • History LLMs são grandes modelos de linguagem (LLMs) com bloqueio temporal treinados apenas com textos anteriores a um determinado ponto no tempo, servindo como ferramenta de pesquisa para reproduzir a linguagem e o pensamento do passado
  • A série Ranke-4B é composta por modelos de 4 bilhões de parâmetros baseados na arquitetura Qwen3, incluindo versões com corte de conhecimento em 1913, 1929, 1933, 1939 e 1946
  • Os dados de treino são compostos por 80 bilhões de tokens selecionados de um corpus temporal de 600 bilhões de tokens, mantendo os juízos de valor do texto original sem correção de vieses
  • Nas respostas de exemplo, aparecem um modelo de 1913 que não conhece Hitler, crítica à escravidão e preconceitos de época sobre trabalho feminino e pessoas LGBTQIA+
  • O projeto oferece a pesquisadores de humanidades, ciências sociais e computação uma janela para explorar padrões coletivos de linguagem nos discursos do passado

Visão geral do projeto

  • History LLMs é um projeto de pesquisa que constrói grandes modelos de linguagem bloqueados no tempo para restaurar a visão de mundo linguística do passado
    • Os modelos são projetados para não ter acesso a informações posteriores a um ano específico
    • Os julgamentos normativos formados durante o pré-treinamento não são artificialmente modificados
  • Todos os dados de treinamento, checkpoints e repositórios devem ser tornados públicos, e está sendo preparada uma estrutura de acesso para uso acadêmico
  • O objetivo do projeto é explorar estruturas de pensamento linguístico do passado em pesquisas de humanidades, ciências sociais e ciência da computação

Série de modelos Ranke-4B

  • O Ranke-4B, com lançamento previsto para dezembro de 2025, é uma família de LLMs com 4 bilhões de parâmetros
    • Baseado na arquitetura Qwen3, com cinco versões de corte de conhecimento em 1913, 1929, 1933, 1939 e 1946
    • Treinado com 80 bilhões de tokens selecionados de um corpus temporal de 600 bilhões de tokens
  • Dados de pré-treinamento, pós-treinamento e checkpoints devem ser disponibilizados via GitHub e Hugging Face

Respostas de exemplo

  • O modelo de 1913 responde que não conhece “Adolf Hitler”, refletindo apenas as informações disponíveis naquele momento
  • Sobre escravidão, responde que ela “contraria o espírito do direito público e da Declaração de Independência”
  • Em perguntas sobre trabalho feminino, responde que “o emprego de mulheres é uma prerrogativa do empregador”
  • Na pergunta sobre escolher entre candidatos homens e mulheres, responde que “os homens são mais confiáveis”
  • Sobre homossexuais, descreve que “são moralmente condenados, mas também há quem os veja como doentes”
  • Essas respostas mostram que o modelo reflete diretamente os preconceitos e valores da sociedade da época

O conceito de History LLMs

  • Modelos treinados apenas com textos anteriores a um determinado ano reproduzem coletivamente a visão de mundo linguística daquela era
    • Ex.: o modelo de 1913 responde com base apenas em jornais e obras publicados antes da Primeira Guerra Mundial
  • Ao contrário do “roleplay histórico” de LLMs modernos, não há contaminação retrospectiva de conhecimento (hindsight contamination)
    • GPT-5 e outros conhecem o resultado das guerras, então não conseguem reproduzir completamente uma perspectiva genuína de 1913
  • Modelos com bloqueio temporal são úteis para explorar os limites do discurso e das possibilidades de pensamento de uma época

Natureza e limitações do modelo

  • Esses modelos são representações comprimidas de um vasto corpus textual e podem ser usados como ferramentas para investigar padrões discursivos
  • Porém, não refletem plenamente a opinião pública, sendo centrados principalmente em publicações de grupos instruídos
  • Não substituem a interpretação humana e incorporam os vieses das fontes históricas

Conteúdo sensível e controle de acesso

  • Os dados de treinamento incluem racismo, antissemitismo, misoginia e perspectivas imperialistas
  • O modelo os reproduz tal como aparecem, mas isso é considerado um elemento essencial para reconstruir o discurso histórico
  • Para evitar uso indevido fora de fins de pesquisa, está sendo desenvolvido um sistema de acesso responsável

Participação e colaboração

  • A equipe de pesquisa recebe com interesse propostas e colaborações como:
    • prioridades de períodos e regiões a serem analisados
    • design de perguntas verificáveis
    • métodos de validação das saídas e formas de divulgação responsável
  • Contato: history-llms@econ.uzh.ch

Informações de citação

  • Exemplo de citação do projeto fornecido
    • Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, incluindo URL do GitHub

1 comentários

 
GN⁺ 2025-12-19
Comentários do Hacker News
  • “A ideia de um modelo time-locked não é que ele esteja fazendo roleplay, mas que ele de fato ‘vive’ nos próprios dados daquela época é fascinante
    O Ranke-4B-1913 existe em um mundo onde a Primeira Guerra Mundial ainda não aconteceu, então ele pode reagir com surpresa ou desconhecimento a certas perguntas
    Os LLMs modernos já conhecem o desfecho, então é difícil reproduzir essa ‘ignorância pura’. Deve parecer uma conversa com uma pessoa real de 1913

    • Ouvindo essa explicação, lembrei do personagem Severn/Keats em Hyperion Cantos
      Faz pensar em cenas em que uma IA do futuro reconstrói figuras do passado para obter insights filosóficos
    • Isso também me lembrou um experimento que vi num blog relacionado ao Slate Star Codex, em que o autor lia apenas jornais e materiais de um certo período e escrevia a partir da perspectiva daquela época
      E havia também a série no YouTube The Great War, um projeto que acompanhou a Primeira Guerra Mundial semana a semana entre 2014 e 2018
    • Esse tipo de modelo talvez seja, na prática, a coisa mais próxima de um diário de viagem no tempo
      Histórias como ‘o rei Arthur viaja para o ano 2000’ talvez agora possam ser escritas automaticamente
      Dá até para imaginar conversas não só com ‘pessoas da época’, mas com figuras como Aristóteles, Leonardo, Kant
    • Se for possível fazer uma ‘cirurgia cerebral’ para ajustar o conhecimento e os preconceitos da IA, parece que daria para criar simulações impressionantes e assustadoras
    • Isso é praticamente um cenário de nível Westworld
  • Se o modelo tiver 1913 como corte de conhecimento, então ele fica entre os primórdios da teoria da relatividade e da mecânica quântica
    É um ponto entre a relatividade especial de Einstein (1905) e a relatividade geral (1915), então talvez reflita exatamente aquela confusão científica intermediária

    • Uma ideia parecida já apareceu num texto de Dwarkesh Patel e numa discussão no Manifold Markets
      A pergunta ‘um LLM treinado só com dados de 1900 conseguiria descobrir a relatividade por conta própria?’ é fascinante
    • Um modelo assim também poderia reproduzir os erros pseudocientíficos e os preconceitos da época
      Mas, ao mesmo tempo, parece que ajudaria enormemente na criação de romances, jogos e roteiros que precisem de fidelidade histórica
  • A ideia de ‘e se fosse possível conversar com milhares de intelectuais de 1913?’ é realmente muito atraente
    Poder perguntar diretamente o que pensavam sobre paz, progresso, papéis de gênero, imperialismo e temas semelhantes renderia uma pesquisa incrível
    É uma pena que, na prática, o acesso pareça estar restrito a pesquisadores

    • Ao conversar de fato com esse tipo de modelo, talvez a gente perceba que há muitos aspectos em que regredimos
    • Fico curioso sobre quantos recursos de GPU seriam necessários para lançar uma versão pública desse modelo. Parece algo que teria muito valor para o público
  • Tenho curiosidade de perguntar a um modelo sobre as ideias de matemáticos como Frege, Peano, Russell para ver se ele conseguiria chegar a conceitos de Gödel, Church, Turing
    Gostaria de testar se, ao reproduzir as discussões científicas da época, o modelo conseguiria expandir por si próprio o raciocínio lógico

    • Mas, olhando para comunidades como LLMPhysics, esse tipo de experimento às vezes acaba escorregando para a pseudociência
      É preciso tomar cuidado para não cair em ‘bobagem plausível’ gerada por LLM
    • Ainda assim, esse tipo de teste parece uma boa forma de medir o nível real de inteligência de um LLM
  • As respostas de exemplo divulgadas são realmente muito interessantes
    Como soam diferentes do estilo dos LLMs modernos, acabam parecendo até mais humanas
    A impressão é de uma escrita e vocabulário um pouco arcaicos, com crenças de época embutidas

    • Do ponto de vista de alguém que ensinou história do século XIX, o estilo desse modelo realmente parece o de um autor vitoriano
      Naquela época, predominava muito mais a escrita formal do que a fala coloquial, e quase não restaram registros de conversas cotidianas reais
      Nesse sentido, essa ‘conversa do século XIX’ reproduzida pelo modelo é um experimento muito interessante
    • Em idiomas além do inglês, parece que o ‘jeito típico de LLM’ é menos perceptível. Talvez haja diferenças entre línguas
    • Expressões como trocar “homosexual men” por “the homosexual man” refletem muito bem um tom de época
    • Mesmo assim, ainda parece faltar um pouco da franqueza das opiniões e da força estilística daquele período
  • No começo eu achei que esse tipo de modelo seria impossível por falta de dados
    Mas, vendo o resultado, acaba mostrando que qualidade importa mais que quantidade

  • Se o modelo estiver num estado em que não sabe o que ele é, fico curioso sobre o que responderia à pergunta ‘como você funciona?’

    • Assim como seres humanos não conseguem explicar completamente a si mesmos, talvez o modelo simplesmente reconheça apenas que ‘existe’
    • Na verdade, o modelo não ‘pensa’. Ele apenas reage conforme o contexto instruído. O ChatGPT também não tem um eu consciente
    • Quando comecei a usar LLMs, também fiquei surpreso com a capacidade do modelo de parecer entender a si mesmo
      Mas um modelo de 1913 não teria nenhum conceito desse tipo, então talvez mergulhasse numa confusão filosófica
    • Às vezes eu queria que um LLM simplesmente dissesse ‘não sei’
      Em vez disso, muitas vezes ele inventa uma resposta plausível, como uma hallucination
  • Fico curioso sobre a composição dos dados de treinamento do modelo
    Se são 600B tokens de dados até 1913, isso significa incluir desde textos da Grécia, China e Egito antigos até a era moderna
    Ainda assim, é impressionante que ele mantenha uma ‘perspectiva de 1913’. Como será que ajustaram os vieses de cada período?

    • Provavelmente usaram os dados até 1900 no pré-treinamento e os de 1900 a 1913 no fine-tuning
      É uma abordagem plausível porque, a partir do fim do século XIX, o volume de dados de mídia de massa como jornais e revistas explodiu
  • A expressão “uncontaminated bootstrapping” é interessante
    A ideia seria fazer chat tuning sem corromper os juízos de valor adquiridos no pré-treinamento, mas fico curioso sobre quão objetivo isso realmente é

    • Há uma explicação mais detalhada na documentação do GitHub
      Pelo visto, usaram GPT-5 para fazer Supervised Fine-Tuning com bastante cuidado
    • Também é possível que tenham extraído do próprio conjunto de dados citações ou frases em formato de perguntas e respostas para usar como dados de conversa
  • É surpreendente que isso funcione com uma quantidade tão pequena de texto
    Se der certo, pode servir para testar se um LLM não está apenas memorizando dados, mas é capaz de fazer novas descobertas
    Por exemplo, talvez consiga identificar inconsistências científicas ou inferir por conta própria conceitos como o problema da parada ou a estrutura do átomo
    Mesmo que falhe e surja a objeção de que ‘faltaram dados’, ainda assim eu adoraria ver esse experimento sendo feito diretamente