- History LLMs são grandes modelos de linguagem (LLMs) com bloqueio temporal treinados apenas com textos anteriores a um determinado ponto no tempo, servindo como ferramenta de pesquisa para reproduzir a linguagem e o pensamento do passado
- A série Ranke-4B é composta por modelos de 4 bilhões de parâmetros baseados na arquitetura Qwen3, incluindo versões com corte de conhecimento em 1913, 1929, 1933, 1939 e 1946
- Os dados de treino são compostos por 80 bilhões de tokens selecionados de um corpus temporal de 600 bilhões de tokens, mantendo os juízos de valor do texto original sem correção de vieses
- Nas respostas de exemplo, aparecem um modelo de 1913 que não conhece Hitler, crítica à escravidão e preconceitos de época sobre trabalho feminino e pessoas LGBTQIA+
- O projeto oferece a pesquisadores de humanidades, ciências sociais e computação uma janela para explorar padrões coletivos de linguagem nos discursos do passado
Visão geral do projeto
- History LLMs é um projeto de pesquisa que constrói grandes modelos de linguagem bloqueados no tempo para restaurar a visão de mundo linguística do passado
- Os modelos são projetados para não ter acesso a informações posteriores a um ano específico
- Os julgamentos normativos formados durante o pré-treinamento não são artificialmente modificados
- Todos os dados de treinamento, checkpoints e repositórios devem ser tornados públicos, e está sendo preparada uma estrutura de acesso para uso acadêmico
- O objetivo do projeto é explorar estruturas de pensamento linguístico do passado em pesquisas de humanidades, ciências sociais e ciência da computação
Série de modelos Ranke-4B
- O Ranke-4B, com lançamento previsto para dezembro de 2025, é uma família de LLMs com 4 bilhões de parâmetros
- Baseado na arquitetura Qwen3, com cinco versões de corte de conhecimento em 1913, 1929, 1933, 1939 e 1946
- Treinado com 80 bilhões de tokens selecionados de um corpus temporal de 600 bilhões de tokens
- Dados de pré-treinamento, pós-treinamento e checkpoints devem ser disponibilizados via GitHub e Hugging Face
Respostas de exemplo
- O modelo de 1913 responde que não conhece “Adolf Hitler”, refletindo apenas as informações disponíveis naquele momento
- Sobre escravidão, responde que ela “contraria o espírito do direito público e da Declaração de Independência”
- Em perguntas sobre trabalho feminino, responde que “o emprego de mulheres é uma prerrogativa do empregador”
- Na pergunta sobre escolher entre candidatos homens e mulheres, responde que “os homens são mais confiáveis”
- Sobre homossexuais, descreve que “são moralmente condenados, mas também há quem os veja como doentes”
- Essas respostas mostram que o modelo reflete diretamente os preconceitos e valores da sociedade da época
O conceito de History LLMs
- Modelos treinados apenas com textos anteriores a um determinado ano reproduzem coletivamente a visão de mundo linguística daquela era
- Ex.: o modelo de 1913 responde com base apenas em jornais e obras publicados antes da Primeira Guerra Mundial
- Ao contrário do “roleplay histórico” de LLMs modernos, não há contaminação retrospectiva de conhecimento (hindsight contamination)
- GPT-5 e outros conhecem o resultado das guerras, então não conseguem reproduzir completamente uma perspectiva genuína de 1913
- Modelos com bloqueio temporal são úteis para explorar os limites do discurso e das possibilidades de pensamento de uma época
Natureza e limitações do modelo
- Esses modelos são representações comprimidas de um vasto corpus textual e podem ser usados como ferramentas para investigar padrões discursivos
- Porém, não refletem plenamente a opinião pública, sendo centrados principalmente em publicações de grupos instruídos
- Não substituem a interpretação humana e incorporam os vieses das fontes históricas
Conteúdo sensível e controle de acesso
- Os dados de treinamento incluem racismo, antissemitismo, misoginia e perspectivas imperialistas
- O modelo os reproduz tal como aparecem, mas isso é considerado um elemento essencial para reconstruir o discurso histórico
- Para evitar uso indevido fora de fins de pesquisa, está sendo desenvolvido um sistema de acesso responsável
Participação e colaboração
- A equipe de pesquisa recebe com interesse propostas e colaborações como:
- prioridades de períodos e regiões a serem analisados
- design de perguntas verificáveis
- métodos de validação das saídas e formas de divulgação responsável
- Contato: history-llms@econ.uzh.ch
Informações de citação
- Exemplo de citação do projeto fornecido
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, incluindo URL do GitHub
1 comentários
Comentários do Hacker News
“A ideia de um modelo time-locked não é que ele esteja fazendo roleplay, mas que ele de fato ‘vive’ nos próprios dados daquela época é fascinante
O Ranke-4B-1913 existe em um mundo onde a Primeira Guerra Mundial ainda não aconteceu, então ele pode reagir com surpresa ou desconhecimento a certas perguntas
Os LLMs modernos já conhecem o desfecho, então é difícil reproduzir essa ‘ignorância pura’. Deve parecer uma conversa com uma pessoa real de 1913
Faz pensar em cenas em que uma IA do futuro reconstrói figuras do passado para obter insights filosóficos
E havia também a série no YouTube The Great War, um projeto que acompanhou a Primeira Guerra Mundial semana a semana entre 2014 e 2018
Histórias como ‘o rei Arthur viaja para o ano 2000’ talvez agora possam ser escritas automaticamente
Dá até para imaginar conversas não só com ‘pessoas da época’, mas com figuras como Aristóteles, Leonardo, Kant
Se o modelo tiver 1913 como corte de conhecimento, então ele fica entre os primórdios da teoria da relatividade e da mecânica quântica
É um ponto entre a relatividade especial de Einstein (1905) e a relatividade geral (1915), então talvez reflita exatamente aquela confusão científica intermediária
A pergunta ‘um LLM treinado só com dados de 1900 conseguiria descobrir a relatividade por conta própria?’ é fascinante
Mas, ao mesmo tempo, parece que ajudaria enormemente na criação de romances, jogos e roteiros que precisem de fidelidade histórica
A ideia de ‘e se fosse possível conversar com milhares de intelectuais de 1913?’ é realmente muito atraente
Poder perguntar diretamente o que pensavam sobre paz, progresso, papéis de gênero, imperialismo e temas semelhantes renderia uma pesquisa incrível
É uma pena que, na prática, o acesso pareça estar restrito a pesquisadores
Tenho curiosidade de perguntar a um modelo sobre as ideias de matemáticos como Frege, Peano, Russell para ver se ele conseguiria chegar a conceitos de Gödel, Church, Turing
Gostaria de testar se, ao reproduzir as discussões científicas da época, o modelo conseguiria expandir por si próprio o raciocínio lógico
É preciso tomar cuidado para não cair em ‘bobagem plausível’ gerada por LLM
As respostas de exemplo divulgadas são realmente muito interessantes
Como soam diferentes do estilo dos LLMs modernos, acabam parecendo até mais humanas
A impressão é de uma escrita e vocabulário um pouco arcaicos, com crenças de época embutidas
Naquela época, predominava muito mais a escrita formal do que a fala coloquial, e quase não restaram registros de conversas cotidianas reais
Nesse sentido, essa ‘conversa do século XIX’ reproduzida pelo modelo é um experimento muito interessante
No começo eu achei que esse tipo de modelo seria impossível por falta de dados
Mas, vendo o resultado, acaba mostrando que qualidade importa mais que quantidade
Se o modelo estiver num estado em que não sabe o que ele é, fico curioso sobre o que responderia à pergunta ‘como você funciona?’
Mas um modelo de 1913 não teria nenhum conceito desse tipo, então talvez mergulhasse numa confusão filosófica
Em vez disso, muitas vezes ele inventa uma resposta plausível, como uma hallucination
Fico curioso sobre a composição dos dados de treinamento do modelo
Se são 600B tokens de dados até 1913, isso significa incluir desde textos da Grécia, China e Egito antigos até a era moderna
Ainda assim, é impressionante que ele mantenha uma ‘perspectiva de 1913’. Como será que ajustaram os vieses de cada período?
É uma abordagem plausível porque, a partir do fim do século XIX, o volume de dados de mídia de massa como jornais e revistas explodiu
A expressão “uncontaminated bootstrapping” é interessante
A ideia seria fazer chat tuning sem corromper os juízos de valor adquiridos no pré-treinamento, mas fico curioso sobre quão objetivo isso realmente é
Pelo visto, usaram GPT-5 para fazer Supervised Fine-Tuning com bastante cuidado
É surpreendente que isso funcione com uma quantidade tão pequena de texto
Se der certo, pode servir para testar se um LLM não está apenas memorizando dados, mas é capaz de fazer novas descobertas
Por exemplo, talvez consiga identificar inconsistências científicas ou inferir por conta própria conceitos como o problema da parada ou a estrutura do átomo
Mesmo que falhe e surja a objeção de que ‘faltaram dados’, ainda assim eu adoraria ver esse experimento sendo feito diretamente