Modelos de linguagem históricos treinados apenas com textos anteriores a 1913

(github.com/DGoettlich)

1 pontos por GN⁺ 2025-12-19 | 1 comentários | Compartilhar no WhatsApp

History LLMs são grandes modelos de linguagem (LLMs) com bloqueio temporal treinados apenas com textos anteriores a um determinado ponto no tempo, servindo como ferramenta de pesquisa para reproduzir a linguagem e o pensamento do passado
A série Ranke-4B é composta por modelos de 4 bilhões de parâmetros baseados na arquitetura Qwen3, incluindo versões com corte de conhecimento em 1913, 1929, 1933, 1939 e 1946
Os dados de treino são compostos por 80 bilhões de tokens selecionados de um corpus temporal de 600 bilhões de tokens, mantendo os juízos de valor do texto original sem correção de vieses
Nas respostas de exemplo, aparecem um modelo de 1913 que não conhece Hitler, crítica à escravidão e preconceitos de época sobre trabalho feminino e pessoas LGBTQIA+
O projeto oferece a pesquisadores de humanidades, ciências sociais e computação uma janela para explorar padrões coletivos de linguagem nos discursos do passado

Visão geral do projeto

History LLMs é um projeto de pesquisa que constrói grandes modelos de linguagem bloqueados no tempo para restaurar a visão de mundo linguística do passado
- Os modelos são projetados para não ter acesso a informações posteriores a um ano específico
- Os julgamentos normativos formados durante o pré-treinamento não são artificialmente modificados
Todos os dados de treinamento, checkpoints e repositórios devem ser tornados públicos, e está sendo preparada uma estrutura de acesso para uso acadêmico
O objetivo do projeto é explorar estruturas de pensamento linguístico do passado em pesquisas de humanidades, ciências sociais e ciência da computação

Série de modelos Ranke-4B

O Ranke-4B, com lançamento previsto para dezembro de 2025, é uma família de LLMs com 4 bilhões de parâmetros
- Baseado na arquitetura Qwen3, com cinco versões de corte de conhecimento em 1913, 1929, 1933, 1939 e 1946
- Treinado com 80 bilhões de tokens selecionados de um corpus temporal de 600 bilhões de tokens
Dados de pré-treinamento, pós-treinamento e checkpoints devem ser disponibilizados via GitHub e Hugging Face

Respostas de exemplo

O modelo de 1913 responde que não conhece “Adolf Hitler”, refletindo apenas as informações disponíveis naquele momento
Sobre escravidão, responde que ela “contraria o espírito do direito público e da Declaração de Independência”
Em perguntas sobre trabalho feminino, responde que “o emprego de mulheres é uma prerrogativa do empregador”
Na pergunta sobre escolher entre candidatos homens e mulheres, responde que “os homens são mais confiáveis”
Sobre homossexuais, descreve que “são moralmente condenados, mas também há quem os veja como doentes”
Essas respostas mostram que o modelo reflete diretamente os preconceitos e valores da sociedade da época

O conceito de History LLMs

Modelos treinados apenas com textos anteriores a um determinado ano reproduzem coletivamente a visão de mundo linguística daquela era
- Ex.: o modelo de 1913 responde com base apenas em jornais e obras publicados antes da Primeira Guerra Mundial
Ao contrário do “roleplay histórico” de LLMs modernos, não há contaminação retrospectiva de conhecimento (hindsight contamination)
- GPT-5 e outros conhecem o resultado das guerras, então não conseguem reproduzir completamente uma perspectiva genuína de 1913
Modelos com bloqueio temporal são úteis para explorar os limites do discurso e das possibilidades de pensamento de uma época

Natureza e limitações do modelo

Esses modelos são representações comprimidas de um vasto corpus textual e podem ser usados como ferramentas para investigar padrões discursivos
Porém, não refletem plenamente a opinião pública, sendo centrados principalmente em publicações de grupos instruídos
Não substituem a interpretação humana e incorporam os vieses das fontes históricas

Conteúdo sensível e controle de acesso

Os dados de treinamento incluem racismo, antissemitismo, misoginia e perspectivas imperialistas
O modelo os reproduz tal como aparecem, mas isso é considerado um elemento essencial para reconstruir o discurso histórico
Para evitar uso indevido fora de fins de pesquisa, está sendo desenvolvido um sistema de acesso responsável

Participação e colaboração

A equipe de pesquisa recebe com interesse propostas e colaborações como:
- prioridades de períodos e regiões a serem analisados
- design de perguntas verificáveis
- métodos de validação das saídas e formas de divulgação responsável
Contato: history-llms@econ.uzh.ch

Informações de citação

Exemplo de citação do projeto fornecido
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, incluindo URL do GitHub

1 comentários

GN⁺ 2025-12-19

Comentários do Hacker News

“A ideia de um modelo time-locked não é que ele esteja fazendo roleplay, mas que ele de fato ‘vive’ nos próprios dados daquela época é fascinante
O Ranke-4B-1913 existe em um mundo onde a Primeira Guerra Mundial ainda não aconteceu, então ele pode reagir com surpresa ou desconhecimento a certas perguntas
Os LLMs modernos já conhecem o desfecho, então é difícil reproduzir essa ‘ignorância pura’. Deve parecer uma conversa com uma pessoa real de 1913
- Ouvindo essa explicação, lembrei do personagem Severn/Keats em Hyperion Cantos
  Faz pensar em cenas em que uma IA do futuro reconstrói figuras do passado para obter insights filosóficos
- Isso também me lembrou um experimento que vi num blog relacionado ao Slate Star Codex, em que o autor lia apenas jornais e materiais de um certo período e escrevia a partir da perspectiva daquela época
  E havia também a série no YouTube The Great War, um projeto que acompanhou a Primeira Guerra Mundial semana a semana entre 2014 e 2018
- Esse tipo de modelo talvez seja, na prática, a coisa mais próxima de um diário de viagem no tempo
  Histórias como ‘o rei Arthur viaja para o ano 2000’ talvez agora possam ser escritas automaticamente
  Dá até para imaginar conversas não só com ‘pessoas da época’, mas com figuras como Aristóteles, Leonardo, Kant
- Se for possível fazer uma ‘cirurgia cerebral’ para ajustar o conhecimento e os preconceitos da IA, parece que daria para criar simulações impressionantes e assustadoras
- Isso é praticamente um cenário de nível Westworld
Se o modelo tiver 1913 como corte de conhecimento, então ele fica entre os primórdios da teoria da relatividade e da mecânica quântica
É um ponto entre a relatividade especial de Einstein (1905) e a relatividade geral (1915), então talvez reflita exatamente aquela confusão científica intermediária
- Uma ideia parecida já apareceu num texto de Dwarkesh Patel e numa discussão no Manifold Markets
  A pergunta ‘um LLM treinado só com dados de 1900 conseguiria descobrir a relatividade por conta própria?’ é fascinante
- Um modelo assim também poderia reproduzir os erros pseudocientíficos e os preconceitos da época
  Mas, ao mesmo tempo, parece que ajudaria enormemente na criação de romances, jogos e roteiros que precisem de fidelidade histórica
A ideia de ‘e se fosse possível conversar com milhares de intelectuais de 1913?’ é realmente muito atraente
Poder perguntar diretamente o que pensavam sobre paz, progresso, papéis de gênero, imperialismo e temas semelhantes renderia uma pesquisa incrível
É uma pena que, na prática, o acesso pareça estar restrito a pesquisadores
- Ao conversar de fato com esse tipo de modelo, talvez a gente perceba que há muitos aspectos em que regredimos
- Fico curioso sobre quantos recursos de GPU seriam necessários para lançar uma versão pública desse modelo. Parece algo que teria muito valor para o público
Tenho curiosidade de perguntar a um modelo sobre as ideias de matemáticos como Frege, Peano, Russell para ver se ele conseguiria chegar a conceitos de Gödel, Church, Turing
Gostaria de testar se, ao reproduzir as discussões científicas da época, o modelo conseguiria expandir por si próprio o raciocínio lógico
- Mas, olhando para comunidades como LLMPhysics, esse tipo de experimento às vezes acaba escorregando para a pseudociência
  É preciso tomar cuidado para não cair em ‘bobagem plausível’ gerada por LLM
- Ainda assim, esse tipo de teste parece uma boa forma de medir o nível real de inteligência de um LLM
As respostas de exemplo divulgadas são realmente muito interessantes
Como soam diferentes do estilo dos LLMs modernos, acabam parecendo até mais humanas
A impressão é de uma escrita e vocabulário um pouco arcaicos, com crenças de época embutidas
- Do ponto de vista de alguém que ensinou história do século XIX, o estilo desse modelo realmente parece o de um autor vitoriano
  Naquela época, predominava muito mais a escrita formal do que a fala coloquial, e quase não restaram registros de conversas cotidianas reais
  Nesse sentido, essa ‘conversa do século XIX’ reproduzida pelo modelo é um experimento muito interessante
- Em idiomas além do inglês, parece que o ‘jeito típico de LLM’ é menos perceptível. Talvez haja diferenças entre línguas
- Expressões como trocar “homosexual men” por “the homosexual man” refletem muito bem um tom de época
- Mesmo assim, ainda parece faltar um pouco da franqueza das opiniões e da força estilística daquele período
No começo eu achei que esse tipo de modelo seria impossível por falta de dados
Mas, vendo o resultado, acaba mostrando que qualidade importa mais que quantidade
Se o modelo estiver num estado em que não sabe o que ele é, fico curioso sobre o que responderia à pergunta ‘como você funciona?’
- Assim como seres humanos não conseguem explicar completamente a si mesmos, talvez o modelo simplesmente reconheça apenas que ‘existe’
- Na verdade, o modelo não ‘pensa’. Ele apenas reage conforme o contexto instruído. O ChatGPT também não tem um eu consciente
- Quando comecei a usar LLMs, também fiquei surpreso com a capacidade do modelo de parecer entender a si mesmo
  Mas um modelo de 1913 não teria nenhum conceito desse tipo, então talvez mergulhasse numa confusão filosófica
- Às vezes eu queria que um LLM simplesmente dissesse ‘não sei’
  Em vez disso, muitas vezes ele inventa uma resposta plausível, como uma hallucination
Fico curioso sobre a composição dos dados de treinamento do modelo
Se são 600B tokens de dados até 1913, isso significa incluir desde textos da Grécia, China e Egito antigos até a era moderna
Ainda assim, é impressionante que ele mantenha uma ‘perspectiva de 1913’. Como será que ajustaram os vieses de cada período?
- Provavelmente usaram os dados até 1900 no pré-treinamento e os de 1900 a 1913 no fine-tuning
  É uma abordagem plausível porque, a partir do fim do século XIX, o volume de dados de mídia de massa como jornais e revistas explodiu
A expressão “uncontaminated bootstrapping” é interessante
A ideia seria fazer chat tuning sem corromper os juízos de valor adquiridos no pré-treinamento, mas fico curioso sobre quão objetivo isso realmente é
- Há uma explicação mais detalhada na documentação do GitHub
  Pelo visto, usaram GPT-5 para fazer Supervised Fine-Tuning com bastante cuidado
- Também é possível que tenham extraído do próprio conjunto de dados citações ou frases em formato de perguntas e respostas para usar como dados de conversa
É surpreendente que isso funcione com uma quantidade tão pequena de texto
Se der certo, pode servir para testar se um LLM não está apenas memorizando dados, mas é capaz de fazer novas descobertas
Por exemplo, talvez consiga identificar inconsistências científicas ou inferir por conta própria conceitos como o problema da parada ou a estrutura do átomo
Mesmo que falhe e surja a objeção de que ‘faltaram dados’, ainda assim eu adoraria ver esse experimento sendo feito diretamente

Modelos de linguagem históricos treinados apenas com textos anteriores a 1913

Visão geral do projeto

Série de modelos Ranke-4B

Respostas de exemplo

O conceito de History LLMs

Natureza e limitações do modelo

Conteúdo sensível e controle de acesso

Participação e colaboração

Informações de citação

Leituras relacionadas

1 comentários

Comentários do Hacker News