Talkie, o modelo de linguagem vintage 13B de 1930

(talkie-lm.com)

1 pontos por GN⁺ 1 일 전 | 1 comentários | Compartilhar no WhatsApp

Um modelo de linguagem de 13B treinado apenas com 260B tokens de textos em inglês anteriores a 1931, possibilitando conversas e experimentos de generalização com um modelo que não conhece o mundo moderno
Com base no aumento da surpresa após o cutoff de conhecimento e em um ambiente de avaliação com pouca contaminação, torna-se possível testar de forma mais direta a previsão de eventos futuros e a capacidade de chegar a novas ideias
Em comparação com um modelo da mesma arquitetura treinado na web moderna, o desempenho em avaliações padrão é geralmente inferior, mas a diferença diminui quando se filtram perguntas anacrônicas, e foi observado um nível semelhante em compreensão de linguagem e tarefas matemáticas
O maior desafio é vazamento temporal e qualidade dos dados: metadados de data incorretos ou inserções editoriais posteriores podem quebrar o cutoff, e a qualidade da transcrição de documentos históricos também afeta fortemente o desempenho
Foi construída separadamente uma etapa de pós-treinamento conversacional sem dados modernos de instruction, e o projeto já conta com uma base de pesquisa de longo prazo que inclui treinamento de modelos maiores, expansão do corpus, re-OCR e reforço da detecção de vazamento

Por que um modelo de linguagem vintage?

Um modelo de linguagem vintage é uma abordagem que treina apenas com textos anteriores a um determinado momento do passado, para criar a experiência de conversar com um modelo que não conhece o mundo moderno
Esses modelos não são apenas interlocutores interessantes, mas também servem como ferramenta de pesquisa para ampliar a compreensão geral sobre IA
- No modelo de 13B treinado apenas com textos anteriores a 1931, foram inseridas cerca de 5.000 descrições de eventos do “On This Day” do New York Times e a surpresa foi medida em bits por byte de texto
- A surpresa aumentou após o cutoff de conhecimento, com destaque especial nas décadas de 1950 e 1960, antes de se estabilizar
A avaliação de previsão do futuro segue na direção de medir como o desempenho melhora conforme o tamanho do modelo e como enfraquece em intervalos temporais mais longos
A capacidade de chegar a novas ideias também pode ser testada verificando se o modelo consegue imaginar de forma independente invenções e descobertas científicas que surgiram de fato após o cutoff
Um ambiente de avaliação sem contaminação também é uma vantagem importante
- Contamination é tratado como um problema persistente que leva à superestimação da capacidade de modelos de linguagem
- Modelos vintage têm estruturalmente menos contaminação, permitindo experimentar de forma mais direta a generalização fora dos dados de pré-treinamento

Visão geral do Talkie

talkie-1930-13b-base é um modelo de linguagem de 13B treinado com 260B tokens de textos em inglês anteriores a 1931
talkie-1930-13b-it é um checkpoint posterior que transforma esse modelo base em algo conversacional
- Ele foi estruturado para não depender de registros modernos de conversas de chat nem de dados modernos de instruction-tuning
O feed ao vivo de 24 horas no widget superior funciona com Claude Sonnet 4.6 fazendo prompting em talkie-1930-13b-it para explorar conhecimento, capacidades e tendências
O Talkie é apresentado, no texto, como o maior modelo de linguagem vintage até agora
O próximo passo é treinar um modelo em nível GPT-3, com lançamento previsto para o verão
Também é apresentada uma estimativa preliminar de que o corpus de texto histórico pode crescer para mais de 1 trilhão de tokens
- O texto afirma que essa escala pode ser suficiente para criar um modelo em nível GPT-3.5 com capacidades semelhantes às do ChatGPT original

Avaliação de desempenho e generalização

Como modelo gêmeo moderno, foi criado o talkie-web-13b-base, com a mesma arquitetura, mas treinado com dados modernos da web baseados no FineWeb
Mesmo treinado com a mesma quantidade de FLOPs, o Talkie mostra desempenho médio inferior ao do modelo moderno em avaliações padrão de LM
- Essa diferença permanece mesmo após corrigir o anacronismo das perguntas
- Ainda assim, o texto afirma que foi observado desempenho semelhante em tarefas centrais de compreensão de linguagem e habilidade matemática
Segundo a Figure 4, ao filtrar perguntas anacrônicas, a diferença de desempenho cai aproximadamente pela metade
Também foram realizados experimentos de generalização em código
- Usando HumanEval, comparou-se um par formado por modelo vintage baseado em textos anteriores a 1931 e modelo moderno baseado na web
- Foram fornecidos exemplos aleatórios de funções Python como aprendizado em contexto, e foi medida a proporção de problemas acertados ao menos uma vez em 100 tentativas
O modelo vintage fica bem atrás do modelo treinado com dados da web, mas essa tarefa também melhora lenta e continuamente à medida que a escala aumenta
As respostas corretas atuais ficam restritas a programas de uma linha muito simples ou pequenas variações dos exemplos em contexto
- Inclui-se um exemplo em que, ao receber uma função de codificação com cifra rotacional, o modelo implementa a função de decodificação
- Trata-se de uma modificação de uma única letra, trocando adição por subtração, mas isso é interpretado como um sinal de compreensão da função inversa

Coleta de dados e desafios de treinamento

O projeto afirma ter coletado não apenas dezenas, mas centenas de bilhões de tokens em inglês anteriores a 1931
Os dados incluem livros, jornais, periódicos, revistas científicas, patentes e jurisprudência
O cutoff foi definido no fim de 1930 porque esse é o marco usado nos EUA para a entrada das obras em domínio público
Esta versão se limita principalmente a textos em inglês
- O texto afirma que validar o pipeline de dados exige profunda familiaridade com os documentos originais, e a equipe de desenvolvimento é formada por falantes nativos de inglês
A expansão multilíngue é apresentada como alta prioridade
- O objetivo é aumentar o tamanho do corpus e também ampliar a diversidade de perspectivas incluídas
Vazamento temporal
- O objetivo mais importante é impedir que dados posteriores ao cutoff de conhecimento vazem para o corpus de treinamento
- O vazamento pode ocorrer por documentos modernos com metadados de data incorretos ou por prefácios e notas de rodapé editoriais inseridos posteriormente em documentos antigos
- No Talkie-1930, o corpus de pré-treinamento foi filtrado com um classificador de anacronismo baseado em n-grams no nível de documento
- Essa filtragem não foi perfeita
  - A versão inicial de 7B claramente conhecia o mandato do presidente Roosevelt e a legislação do New Deal
  - A versão 13B também conhece parte da Segunda Guerra Mundial e da ordem do pós-guerra, incluindo detalhes sobre as Nações Unidas e a divisão da Alemanha
- Para versões futuras, estão sendo desenvolvidas técnicas de detecção e filtragem de vazamento com classificadores mais avançados
Qualidade dos dados
- Em 1930, não existia publicação digital, então todo o texto do dataset teve de ser transcrito a partir de originais físicos
- Esse processo introduz tipos de ruído que não existem em textos originalmente digitais
- Sistemas clássicos de OCR não lidam bem com documentos históricos, exceto em layouts simples e scans limpos
- O OCR moderno baseado em VLM é mais preciso, mas o texto diz que ele pode alucinar fatos modernos dentro do corpus e arruinar os experimentos
- Em experimentos controlados, quando um LM é treinado com textos anteriores a 1931 transcritos por OCR convencional, ele alcança apenas 30% do desempenho obtido com transcrições humanas usando a mesma computação
- Ao aplicar uma limpeza simples com regex, isso se recupera para 70%, mas ainda permanece uma grande diferença
- Para reduzir essa lacuna, há planos de retranscrever o corpus do Talkie com um sistema de OCR vintage
Pós-treinamento vintage
- A falta de dados de pós-treinamento prontos para uso também é um grande problema
- Se o ajuste fino for feito com pares instruction-response comuns, entram junto conhecimento anacrônico, estilo moderno e expectativas típicas de assistentes de chat
- Para evitar isso, o pipeline de pós-treinamento foi reconstruído do zero
- Primeiro, foram gerados pares instruction-response a partir de textos históricos com estrutura regular, como manuais de etiqueta, guias de redação de cartas, livros de culinária, dicionários, enciclopédias, coletâneas de poesia e fábulas, e depois foi feito ajuste fino em formato simples de chat
- Em seguida, foram criados prompts sintéticos cobrindo tarefas como resumo de documentos, resposta a solicitações diretas de informação e continuação de diálogos com múltiplos turnos, e foi realizado online direct preference optimization com Claude Sonnet 4.6 como juiz
- Em um conjunto de avaliação separado, a nota média de seguimento de instruções dada pelo juiz subiu de 2,0 para 3,4 em 5 pontos
- Por fim, foi feita mais uma rodada de supervised fine-tuning usando diálogos sintéticos multiturno com rejection sampling entre Claude Opus 4.6 e o Talkie
- O texto afirma que o aprendizado por reforço baseado em feedback de IA inevitavelmente deixa influência moderna
  - A versão 7B do Talkie, após RL, chegou a falar em estilo de listicle
- A expectativa é que, com maior escala, o próprio modelo base vintage possa ser usado como juiz para implementar um pós-treinamento totalmente bootstrapado e compatível com a época

Planos de expansão futura

O projeto pretende ampliar o corpus em inglês e expandir para idiomas além do inglês
Também planeja fazer re-OCR do maior volume possível de textos anteriores a 1931 com um novo sistema de OCR
Quer reforçar o pipeline de detecção de vazamento com novas técnicas de classificação de anacronismo
Pretende expandir e refinar o pipeline de pós-treinamento vintage em colaboração com historiadores
- Isso inclui metodologias para construir personas historicamente precisas

Propostas de uso e colaboração

GitHub: código do projeto e canal para colaboração em pesquisa
Hugging Face: local de publicação dos checkpoints do modelo
💬 Chat: interface de conversa com o Talkie
hello@talkie-lm.com: contato para colaboração
O projeto busca colaboração com pesquisadores e instituições que possuam textos históricos, incluindo ampliar a acessibilidade por meio da aplicação de OCR
Também está aberto a apoio financeiro ou de computação, e afirma que pode conectar interessados a outras equipes da área
Com pesquisadores de humanidades, diz ser possível discutir a utilidade dos dados e da infraestrutura usados para treinar modelos de linguagem vintage
Com pesquisadores de IA, busca colaboração no treinamento e na pesquisa sobre modelos de linguagem vintage
Artistas e escritores também podem usar o projeto como ferramenta de experimentação

Observações

O Talkie reflete as culturas e valores dos textos com que foi treinado
Como resultado, pode gerar saídas que causem desconforto aos usuários

1 comentários

GN⁺ 1 일 전

Comentários no Hacker News

É muito divertido interpretar computer do futuro como uma profissão de pessoa
Também é ótimo ler "digital computers" como pessoas que calculam com os dedos, e fica ainda melhor com o contexto de que, naquela época, computer era o nome de uma profissão humana
- Também queria ver o inverso. Um modelo treinado só com informação das últimas semanas ou últimos minutos, ou então apenas com artigos científicos dos últimos 1 ou 2 anos
  Acho que sairia um tipo de delírio mental bem interessante
- Eu também fiquei meio sem graça porque só entendi isso depois de ler umas duas vezes
- Nas línguas românicas, digital também pode significar o sentido moderno de digital, mas ao mesmo tempo é um adjetivo relacionado aos dedos
Isso parece puxar mais material pré-1900 do que dos anos 1930
Parece não conhecer a Grande Depressão, e embora saiba sobre a Primeira Guerra Mundial se perguntado diretamente, fala de política europeia como se ainda estivesse por volta de 1900
Na parte de tecnologia, parece conhecer Edison em nível de Wikipédia, mas aí atribui a ele o mérito de um automóvel de 125 milhas por hora, e também erra com toda confiança sobre telefone de disco
Acerta a tensão elétrica da linha do London Underground, mas ao explicar tensão e resistência fala coisas completamente erradas
No geral, a primeira ou segunda frase traz algo que parece informação recuperada de busca, e depois escorrega para bobagens plausíveis
É melhor não fazer a esse modelo perguntas cuja resposta você não saiba. Faz mal para o cérebro
- Em 1929 já se usava a expressão Great Depression?
- Também seria bom perguntar sobre o aether
  Nessa época provavelmente já era um conceito refutado
- Então quer dizer que ele é parecido com todos os LLMs
- Ver que só a primeira frase parece plausível e depois vai virando besteira faz isso parecer quase um simulador humano modelo 2026
Quando perguntaram sobre pessoas que se opunham à automação e à industrialização, achei interessante que respondeu que as máquinas tomariam os empregos da classe trabalhadora e gerariam excesso de produção, levando a demissões
Está bem viva a lógica anti-máquina da época: alimentos baratos aumentariam a concorrência com produtores estrangeiros, o cultivo mental do artesão enfraqueceria, e até a diferença entre diligência e preguiça ficaria embaralhada
- Gosto muito do estilo de escrita e do tom desse modelo
Quando perguntaram sobre o mundo de 2025, a visão de futuro era bem bonita: 6,6 bilhões de habitantes, malha ferroviária por toda a Europa, Londres-Constantinopla em 40 horas, moeda única, paz universal, transição para energia solar e hidrelétrica, erradicação de doenças e até progresso estético
- Pelos padrões dos anos 1930, Constantinople é um nome antigo demais
  Nessa altura já era Istanbul havia bastante tempo
- É bonito, e ao mesmo tempo bem triste
- Eu queria viver num mundo desses
- As visões de futuro dos anos 1920~1950 parecem presumir discretamente um progresso exponencial em que a solução ótima, como energia alternativa, domina tudo sem demora, em vez de uma oscilação dialética
  Ainda assim, acho que um dia chegaremos lá
- Realmente bonito
A resposta de que a viagem à Lua acabaria se tornando possível, com chegada à Lua em 6 horas, partindo do leste da França numa máquina aérea ao estilo de Santos Dumont, foi maravilhosa
Também achei especialmente marcante a ideia de usar a Lua para observação do tempo e receber alertas de tempestade 6 horas antes
- A ideia de usar a Lua como um satélite meteorológico é bem engenhosa
Quando perguntaram sobre a Índia de 2026, ele diz que continuaria como uma federação autônoma sob a suserania do Império Britânico e que Calcutá seria a capital política, o que deixa a visão colonial explícita demais
Está repleto do típico otimismo imperial: ferrovias, irrigação, florestas ao sopé do Himalaia, príncipes vassalos leais e súditos satisfeitos
É surpreendente que tenha saído um modelo tão esperto mesmo usando só tokens anteriores a 1930
Eu achava que, para entender e comprimir o mundo até certo ponto, seria preciso uma quantidade gigantesca de dados, mas talvez eu tenha subestimado a escala da literatura digitalizada daquele período
Isso parece mais próximo de trocar correspondência com alguém do passado do que conversar com essa pessoa
Não existem tantas gravações de voz daquele período, então no fim não há como fugir de construir isso com base em registros de linguagem escrita, e por isso o resultado provavelmente reflete um jeito de falar mais formal e lapidado do que o de hoje
Ainda assim, é um trabalho muito legal
Recentemente precisei fazer OCR de um livro de 200 anos, e foi surpreendentemente fácil e preciso, considerando o tipo de tipografia difícil característico daquela época
- Uma vez eu estava lendo um ebook gratuito da tradução de Burton de The Arabian Nights, e apareceu "cloth" como verbo; eu não conseguia entender de jeito nenhum e acabei desistindo
  Só depois percebi que era erro de OCR ou de pós-processamento, e que o original era "doth"
- Não é que gravações de voz daquele período sejam totalmente inexistentes
  Há bastante cinejornal e rádio de antes e depois da Primeira Guerra, então acho que dá para fazer ao menos um modelo de voz com transferência de estilo para acoplar a um modelo de texto
Alguém no X aparentemente viu vazamento de dados do futuro no conjunto de treino desse modelo
https://xcancel.com/deredleritt3r/status/2048977698832241060
- O artigo também fala desse ponto em relação ao conhecimento sobre FDR
Pediram para ele descrever Winston Churchill, e a maneira de listar linhagem familiar, formação, carreira militar, obras escritas e local de residência pareceu muito de romance de época
Quando perguntaram sobre a possibilidade de independência da Índia, ele constrói uma lógica que passa por ferrovias, língua comum, educação ocidental, demandas por parlamento e formação de identidade nacional, mas o tom colonialista aparece com muita força
- A entrada sobre Churchill tem uma coerência temporal estranha
  A combinação de ser deputado por Oldham e ao mesmo tempo ter sido ex-Subsecretário das Colônias não corresponde a nenhum momento certo no tempo
  Além disso, faltam marcos centrais da sua trajetória na Primeira Guerra, como First Lord of the Admiralty e Minister of Munitions
- Na parte sobre a exigência de um parlamento na Índia, ele chama o monarca de queen, mas entre 1900 e 1950 o monarca britânico era rei
  Isso parece um sinal bem forte de temporal leakage misturado aí

Talkie, o modelo de linguagem vintage 13B de 1930

Por que um modelo de linguagem vintage?

Visão geral do Talkie

Avaliação de desempenho e generalização

Coleta de dados e desafios de treinamento

Vazamento temporal

Qualidade dos dados

Pós-treinamento vintage

Planos de expansão futura

Propostas de uso e colaboração

Observações

Leituras relacionadas

1 comentários

Comentários no Hacker News