6 pontos por GN⁺ 2025-07-21 | 1 comentários | Compartilhar no WhatsApp
  • Um artigo recente da MIT Technology Review apresentou a ideia de comparar LLMs locais com a Wikipédia offline como backup
  • Foi feita uma comparação direta entre os principais tamanhos de arquivo de modelos LLM da biblioteca Ollama e a capacidade dos pacotes de Wikipédia offline oferecidos pelo Kiwix
  • Arquivos de LLM e dados da Wikipédia têm objetivos, pontos fortes e limitações diferentes, então é difícil fazer uma comparação simples, mas há diferenças interessantes em termos de tamanho
  • Alguns LLMs (modelos de 1 a 4 GB) são maiores que a Wikipédia simples em inglês (cerca de 1 GB), e a Wikipédia completa (57 GB) é maior que LLMs grandes (20 a 32 GB)
  • Além do tamanho dos arquivos, é preciso considerar fatores práticos como memória e requisitos de CPU, e a escolha pode variar conforme o uso real

Comparação entre LLMs locais e a Wikipédia offline

Introdução e motivação da comparação

  • A MIT Technology Review publicou recentemente um artigo intitulado "How to run an LLM on your laptop"
  • O artigo destaca que executar um LLM localmente em um ambiente offline permite aproveitar conhecimento mesmo sem conexão
  • A analogia de Simon Willison foi marcante: "um LLM offline é como uma versão resumida e incompleta da Wikipédia; em um cenário apocalíptico, ter isso em um USB ajudaria a reinicializar a sociedade"

Comparação de tamanho entre modelos e dados

  • Foram comparados vários modelos LLM da biblioteca Ollama com os tamanhos de arquivo dos pacotes de Wikipédia offline oferecidos pelo Kiwix
  • Para a comparação, a análise foi limitada a modelos que podem rodar em hardware de consumo comum e a dados da Wikipédia sem imagens
  • Os principais resultados da comparação são os seguintes:
    • Os menores resumos
      • Best of Wikipedia (50 mil principais, resumo): 356.9MB
      • Simple English Wikipedia (resumo): 417.5MB
    • Modelos LLM representativos (pequenos)
      • Qwen 3 0.6B: 523MB
      • Deepseek-R1 1.5B: 1.1GB
      • Llama 3.2 1B: 1.3GB
    • Modelos LLM representativos (médios e grandes)
      • Deepseek-R1 8B / Qwen 3 8B: 5.2GB
      • Gemma3n e4B: 7.5GB
      • Deepseek-R1 14B: 9GB
      • Qwen 3 14B: 9.3GB
    • A Wikipédia completa
      • Wikipedia (completa): 57.18GB
  • Os 50 mil principais artigos da Wikipédia ocupam apenas 356.9MB
  • O menor LLM (0.6B, Qwen) tem 523MB, portanto é maior que um resumo simples da Wikipédia
  • A Wikipédia completa (57.18GB) é muito maior que o maior LLM (20GB)

Limitações da comparação e pontos a considerar

  • A comparação direta é difícil: uma enciclopédia (dados) e um LLM (modelo generativo) têm propósitos e estruturas essencialmente diferentes
  • O tamanho do arquivo não é o único fator importante: além do tamanho, LLMs exigem muita memória e recursos de CPU durante a execução. A Wikipédia offline é mais fácil de usar em dispositivos modestos
  • Utilidade conforme o objetivo real de uso: por exemplo, é possível baixar apenas a área de química, ou usar um LLM otimizado para um hardware específico
  • Subjetividade nos critérios de seleção: a escolha dos itens usados na comparação é subjetiva

Conclusão e implicações

  • Os 50 mil principais artigos da Wikipédia e o modelo Llama 3.2 3B ficam em um nível semelhante em termos de tamanho de arquivo
  • Os menores pacotes da Wikipédia são menores até que o menor LLM, enquanto o arquivo completo da Wikipédia é maior que o maior LLM
  • Em ambientes com armazenamento suficiente, também vale considerar baixar e usar tanto LLMs quanto dados da Wikipédia

1 comentários

 
GN⁺ 2025-07-21
Comentários do Hacker News
  • O ponto forte dos LLMs não está apenas em armazenar ou buscar conhecimento, mas em compreender; em vez de serem apenas dados brutos como a Wikipédia, eles conseguem entender perguntas ambíguas ou imprecisas, explicar no nível do usuário e conectar várias áreas. Numa situação de reinício da sociedade, esse tipo de compreensão interativa pode ser mais valioso; não seria apenas um snapshot de conhecimento, mas uma ferramenta para as pessoas usarem e aprenderem.
    • Um computador não confiável sendo venerado como um deus por uma sociedade pré-informatizada faz lembrar um episódio de Star Trek.
    • Não sei se LLMs são “mais” valiosos, mas com certeza são úteis. Não gosto muito do jeito como a IA é usada hoje; no fundo, parece um autocompletar turbinado. Ainda assim, funciona muito bem como mecanismo de busca. Quando faço perguntas curtas ao Copilot, muitas vezes obtenho boas respostas. Mas, quando faço perguntas técnicas bem profundas, ele fala muita bobagem. É preciso estar sempre atento. Já pedi para gerar um arquivo de repositório do CentOS, e estava praticamente perfeito, mas definiu gpgkey com http, o que acabou abrindo uma brecha de segurança.
    • Idealmente, deveríamos ler as fontes primárias de forma crítica em vez de depender dos resumos de outras pessoas. Todo mundo aprende isso na escola e concorda, mas poucos realmente fazem isso. Depois de formado, muita gente tende a confiar apenas em fontes terciárias. Já consegui usar LLMs para encontrar tendências recentes da historiografia sobre um tema e materiais que valiam consulta. Em contrapartida, já vi muitos editores da Wikipédia reagirem com hostilidade quando alguém dizia que a Wikipédia estava errada, e também já fui induzido ao erro várias vezes por não conferir as referências.
    • Isso parte do pressuposto de que ainda existam computadores ou smartphones. Imprimir a Wikipédia ou alguns livros e guardá-los pode ser um backup mais seguro. Mas, se a sociedade realmente fosse reiniciada, talvez também fizesse sentido começar de um jeito completamente diferente.
    • Acho que o melhor seria combinar Wikipédia offline, outras fontes de informação e um LLM local. Seria ainda melhor se o LLM fosse conciso e fornecesse links relevantes. LLMs com busca integrada costumam explicar demais; seria melhor oferecer mais links para que a pessoa possa ir direto à informação que quer.
  • “Reiniciar a sociedade com um único pendrive” foi só uma frase solta durante a entrevista, e eu não imaginava que isso iria parar na matéria link da matéria. Muita gente disse que colocar a Wikipédia num USB era algo razoável, e eu concordo. O dump da Wikipédia está em MySQL, então converter para SQLite e usar FTS provavelmente seria mais prático. Também é fácil encontrar pendrives com mais de 1 TB, então quase não há motivo para se preocupar com espaço.
    • Dá para imaginar alguém abrindo uma empresa para vender pendrives já carregados com esse tipo de conhecimento. Se viesse até com uma caixa de proteção contra pulso eletromagnético, poderia ser de grande ajuda em desastres reais. Acho que o que mais vale preservar são informações sobre riscos de catástrofes em larga escala. Por questões de direitos autorais, não daria para incluir livros como ‘Global Catastrophic Risks’, mas talvez desse para rastrear páginas como esta.
    • Há mais de 10 anos eu ando com dumps locais da Wikipédia no celular ou em PDAs (nos últimos 5 anos, até com imagens), e isso ajuda bastante não só para desastres, mas também para uso offline em geral. Mais recentemente, modelos como LLMs ficaram realmente úteis, então espero uma boa sinergia ao combinar um modelo local com a Wikipédia em formato RAG.
    • Recitando um comentário antigo: todos os livros digitalizados dariam cerca de 30 TB; comprimidos, algo como 5,5 TB, cabendo em três cartões microSD de 2 TB. Por volta de 750 dólares, daria para carregar a coleção inteira.
    • Nem precisa usar SQL; é só usar o Kiwix.
    • Me incomoda um pouco como a matéria começa de um jeito grandioso demais. Parece que jornalistas sempre enquadram ferramentas de forma excessivamente épica, e isso passa uma sensação estranha.
  • Acabei de começar a baixar wikipedia_en_all_maxi_2024-01.zim; quero extrair páginas com libzim e integrar com um LLM. O arquivo .zim armazena páginas em HTML e tem cerca de 100 GB. A razão é que quero associar uma grande lista de jogos armazenada em HD (só títulos, sem categorias separadas) com artigos da Wikipédia para organizá-la por gênero e outras informações. Testando, vi que um LLM (Mistral Small 3.2 quantized) organiza surpreendentemente bem esse caos. Também dá para rodar isso rapidamente a partir de um script personalizado com llama.cpp.
    • Na verdade, para esse tipo de integração jogo-Wiki, consultar o Wikidata é bem mais fácil. Inclusive, pode abranger jogos que ainda nem existem na Wikipédia em inglês.
    • É exatamente por esse tipo de relato técnico que eu leio o HN. É revigorante ver alguém compartilhar, com bastante detalhe, algo em que pensou e construiu por conta própria. Também estou tentando criar meu próprio LLM, e este é o primeiro caso realmente útil que vejo desse tipo, então sinto que ainda tenho muito a aprender. Agradeço pela informação.
  • Dumps da Wikipédia, do arXiv e código open source em geral contêm principalmente código executável e informação confiável, além de serem baratos e fáceis de pesquisar. Apps FOSS podem ser usados imediatamente, e a Wiki ajuda a introduzir ou organizar um tema. Já os LLMs, especialmente os modelos menores, inventam resultados, mas tentam responder mesmo a perguntas mal formuladas e (às vezes) conseguem ler e resumir grandes volumes de material bruto. Em cenários de trabalho offline, me parece melhor aproveitar ao máximo bibliotecas já existentes, e também consigo imaginar casos reais de uso de LLMs como assistentes de programação. Ainda não tenho experiência com modelos locais, mas como benchmarks dizem que o Qwen3 32B ajuda na programação, imagino que possa ser útil algum dia.
  • Um dos pontos fortes menos comentados dos LLMs é aproveitar conhecimento independentemente do idioma. A Wikipédia em inglês costuma ter bastante conteúdo, mas isso não vale para a maioria das outras línguas. E também há casos em que existe informação em outras Wikipédias que nem aparece na versão em inglês. O LLM consegue juntar tudo isso e torná-lo acessível em vários idiomas.
  • As empresas de IA destilaram a web inteira em LLMs para criar computadores inteligentes; então por que a humanidade não consegue pegar até as partes com copyright e fazer uma nova super-Wikipédia? Fico pensando por que as crianças não conseguem fazer isso tão bem quanto as empresas de IA.
    • Mas foi exatamente isso que fizemos na prática; o problema é que hoje em dia enciclopédias quase não vendem.
    • Isso se chama biblioteca.
  • Queria mencionar o Wikipedia Monthly, um dump mensal da Wikipédia: 205 GB no total para 341 idiomas, sendo 24 GB só de inglês. O conteúdo é convertido do markup do MediaWiki para texto limpo, o que o torna ótimo para indexação local e vários outros usos. Tenho a impressão de que a Simple English Wikipedia é rasa e pouco precisa. Link do blog do Wikipedia Monthly
  • Sempre sinto falta de discussões mais concretas sobre utilidade por contexto quando se fala da utilidade dos LLMs. Antes deles, recuperação de informação e aprendizado de máquina tinham critérios rigorosos e conjuntos de avaliação bem definidos. Agora, mesmo com LLMs supostamente mais genéricos e capazes de resolver tarefas variadas, acho estranho não haver muito mais benchmarks comparando LLMs com outros métodos. Pode ser apenas que eu não esteja acompanhando bem a área de pesquisa.
  • Há muita polêmica sobre LLMs fornecerem informação imprecisa, mas acho que a configuração ideal para um “banco de dados de consulta informacional do juízo final” seria LLM + arquivo de documentos. Etapa 1: o LLM entende a pergunta ambígua do humano e fornece uma lista de conceitos centrais e links para documentos relacionados, como páginas da Wikipédia. Etapa 2: o usuário consulta diretamente esses documentos para verificar informações confiáveis.
    • Até eu, que sou bastante pessimista, acho que LLMs podem servir bem como ferramenta para traduzir texto humano em termos de busca. O ideal seria usá-los mais como conselheiro ou tutor do que como intermediário. No fim, o importante é que o usuário supere as limitações da ferramenta.
  • Modelos com nomes como “$1-distill-$2” (às vezes sem o “-distill”) são, na verdade, casos de “destilação de conhecimento”, em que um modelo $2 é treinado com as saídas de $1; portanto, apesar do nome, eles não são o próprio $1. Modelos citados na matéria, como “Deepseek-R1 1.5B”, na verdade não existem exatamente assim; é esse tipo de coisa.