LLM-Wiki - Construindo um repositório pessoal de conhecimento com LLM
(gist.github.com/karpathy)- Andrej Karpathy revelou recentemente que está gastando mais tokens em construir um repositório pessoal de conhecimento do que em código, e divulgou este arquivo-guia de ideias para criar uma wiki baseada em LLM
- Ao entregar esse arquivo a um agente, ele cria a wiki por conta própria e orienta sobre como usá-la
- Em vez de um modelo em que o LLM escreve e gerencia diretamente a wiki, diferente da abordagem RAG que reextrai informações do material original a cada consulta, a proposta é construir uma wiki persistente (persistent wiki) em que o conhecimento se acumula gradualmente
- A wiki fica aberta em ferramentas como o Obsidian, enquanto o LLM edita e atualiza arquivos Markdown em tempo real; o usuário se concentra em obter fontes e fazer perguntas
- Ao adicionar novas fontes, o LLM lê o conteúdo e o integra à wiki existente com referências cruzadas; ao processar uma única fonte, pode atualizar de 10 a 15 páginas da wiki
- Pode ser aplicado a qualquer área em que o conhecimento se acumule ao longo do tempo, como saúde pessoal, gestão de metas, pesquisa, notas de leitura e wikis internas de equipes
- Ao reduzir para quase zero o custo de bookkeeping, que era a principal barreira para manter uma wiki, o LLM resolve o problema que fazia tantas pessoas abandonarem esse tipo de gestão
Ideia central
- A maioria das formas de usar documentos com LLM hoje segue o padrão RAG (Retrieval-Augmented Generation): você envia uma coleção de arquivos, e o LLM busca trechos relevantes no momento da consulta para gerar uma resposta
- NotebookLM, upload de arquivos no ChatGPT e a maioria dos sistemas de RAG funcionam assim
- O conhecimento é extraído novamente a cada vez, sem acúmulo de conhecimento
- A abordagem do LLM-Wiki é diferente: em vez de o LLM consultar diretamente as fontes originais, ele constrói e mantém gradualmente uma wiki persistente
- Quando uma nova fonte é adicionada, o LLM lê o material, extrai as informações principais e as integra à wiki existente
- Atualiza páginas de entidades, revisa resumos de tópicos, marca contradições entre novos dados e afirmações anteriores e reforça a síntese
- A wiki é um artefato persistente e cumulativo (persistent, compounding artifact): as referências cruzadas já estão montadas, as contradições já estão marcadas e a síntese já foi incorporada
- Exemplo de uso real: deixar um agente LLM aberto de um lado e o Obsidian do outro para acompanhar em tempo real o que o LLM está editando
- Obsidian = IDE, LLM = programador, wiki = codebase
Áreas de aplicação
- Pessoal: acompanhamento de metas, saúde, psicologia e autodesenvolvimento — reunir diário, artigos e notas de podcasts para construir um registro estruturado de si mesmo
- Pesquisa: construir uma wiki abrangente que registre uma tese em evolução ao longo de semanas ou meses de leitura de artigos, papers e relatórios
- Leitura: organizar por capítulo e estruturar páginas para personagens, temas e fios narrativos — como um Tolkien Gateway que um leitor individual pode construir com milhares de páginas interligadas
- Negócios/equipes: montar uma wiki interna mantida por LLM a partir de threads do Slack, transcrições de reuniões, documentos de projeto e chamadas com clientes
- Também pode ser aplicada a análise competitiva, due diligence, planejamento de viagens, notas de aula, exploração profunda de hobbies e qualquer domínio em que o conhecimento se acumule
Arquitetura (3 camadas)
- Fontes brutas (Raw sources): coleção curada de documentos-fonte — artigos, papers, imagens e arquivos de dados
- Imutáveis (immutable): o LLM apenas lê e não altera nada
- Esta camada é a fonte da verdade (source of truth)
- A wiki (The wiki): diretório de arquivos Markdown gerados pelo LLM — resumos, páginas de entidades, páginas conceituais, comparações, panoramas e sínteses
- O LLM é totalmente responsável por esta camada: cria páginas, atualiza quando novas fontes são adicionadas e mantém as referências cruzadas
- O usuário só lê; quem escreve é o LLM
- O schema (The schema): documento de configuração que informa ao LLM a estrutura da wiki, convenções e fluxo de trabalho (no Claude Code,
CLAUDE.md; no Codex,AGENTS.md)- É o arquivo de configuração central que transforma o LLM de um chatbot genérico em um gestor sistemático de wiki
- Usuário e LLM o evoluem juntos ao longo do tempo
Principais operações
- Ingest (ingestão): adicionar novas fontes à coleção original e instruir o LLM a processá-las
- O LLM lê a fonte → discute os pontos principais → escreve uma página-resumo na wiki → atualiza o índice → atualiza páginas relacionadas de entidades e conceitos → adiciona uma entrada de log
- Uma única fonte pode impactar 10 a 15 páginas da wiki
- É possível acompanhar fonte por fonte ou reduzir a supervisão e processar em lote
- Query (consulta): fazer perguntas à wiki para que o LLM encontre páginas relacionadas e sintetize uma resposta com citações
- A resposta pode assumir vários formatos, como páginas Markdown, tabelas comparativas, slide decks (Marp), gráficos (matplotlib) e canvas
- Boas respostas também podem ser salvas de volta na wiki como novas páginas — a própria exploração passa a se acumular na base de conhecimento
- Lint: pedir periodicamente que o LLM verifique o estado da wiki
- Itens de verificação: contradições entre páginas, afirmações antigas substituídas por fontes mais recentes, páginas órfãs sem links de entrada, conceitos importantes sem página própria, referências cruzadas ausentes e lacunas de dados que podem ser preenchidas com busca na web
Indexação e logging
- index.md: arquivo centrado no conteúdo — cataloga todas as páginas da wiki com links, resumo de uma linha e metadados
- Ao responder consultas, o LLM lê primeiro o índice e navega até as páginas relevantes
- Funciona bem em escala de ~100 fontes e centenas de páginas mesmo sem infraestrutura RAG baseada em embeddings
- log.md: registro cronológico — armazena em ordem as execuções de ingest, query e lint
- Se cada entrada usar um prefixo consistente, ela pode ser parseada com ferramentas Unix
- Ex.:
## [2026-04-02] ingest | Article Title→grep "^## \[" log.md | tail -5para ver as 5 entradas mais recentes
- Ex.:
- Se cada entrada usar um prefixo consistente, ela pode ser parseada com ferramentas Unix
Ferramentas CLI opcionais
- Conforme a wiki cresce, é possível criar ferramentas pequenas para ajudar o LLM a operar com mais eficiência
- qmd: mecanismo de busca local para arquivos Markdown — busca híbrida BM25/vetorial e reranqueamento por LLM, tudo on-device
- Suporta CLI (para o LLM executar via shell out) e servidor MCP (para o LLM usar como ferramenta nativa)
- Em escala pequena, o arquivo de índice já basta; se necessário, o próprio LLM pode ajudar a criar scripts simples de busca
Dicas e uso de ferramentas
- Obsidian Web Clipper: extensão de navegador que converte artigos da web em Markdown — útil para adicionar rapidamente fontes à coleção original
- Armazenamento local de imagens: em Obsidian Settings → Files and links, configure o caminho da pasta de anexos para salvar imagens no disco local com atalho
- Como o LLM não consegue ler de uma vez só Markdown com imagens inline, ele primeiro lê o texto e depois verifica as imagens separadamente
- Obsidian Graph View: ideal para enxergar a forma geral da wiki — relações de conexão, páginas-hub e páginas órfãs
- Marp: formato de slide deck baseado em Markdown — há plugin para Obsidian, permitindo gerar apresentações diretamente a partir do conteúdo da wiki
- Dataview: plugin do Obsidian que executa consultas sobre o frontmatter das páginas — se o LLM adicionar frontmatter YAML (tags, datas, número de fontes), é possível gerar tabelas e listas dinâmicas
- A wiki é um repositório git de arquivos Markdown — oferecendo histórico de versões, branching e colaboração gratuitamente
Como funciona
- A principal barreira para manter uma base de conhecimento não é ler nem pensar, mas sim o bookkeeping: atualizar referências cruzadas, manter resumos em dia, marcar contradições e preservar a consistência entre dezenas de páginas
- As pessoas abandonam wikis porque o custo de manutenção cresce mais rápido do que o valor obtido
- O LLM não se entedia, não esquece de atualizar referências cruzadas e consegue lidar com 15 arquivos de uma vez → o custo de manutenção converge para quase zero
- A ideia tem afinidade conceitual com o Memex (1945) de Vannevar Bush: um repositório de conhecimento pessoal, ativamente curado, em que as conexões entre documentos são tão valiosas quanto os próprios documentos
- O problema de “quem faz a manutenção?” que Bush não conseguiu resolver é assumido pelo LLM
Natureza deste documento
- Este documento foi escrito deliberadamente de forma abstrata — o objetivo é transmitir a ideia em si, não uma implementação específica
- Detalhes como estrutura de diretórios, convenções de schema, formato de páginas e ferramentas variam conforme o domínio, as preferências e o LLM
- Todos os componentes são opcionais e modulares — use apenas o que for necessário e ignore o restante
- Recomenda-se usá-lo compartilhando com um agente LLM e, junto com ele, concretizando uma versão adaptada às próprias necessidades
15 comentários
Isto foi usado em Farzapedia: uma Wikipedia pessoal criada a partir de 2.500 diários, notas e mensagens
index.mdcomo ponto de entrada, e nas consultas o agente navega diretamente pelas páginas necessáriasAs 4 vantagens da personalização baseada em LLM Wiki destacadas por Karpathy
Obrigado por compartilhar. Testei e é impressionante.
Espero que a comunidade continue trazendo métodos ainda mais aprimorados.
Eu também implementei. Adicionei algumas coisas para poder integrar o vault do Obsidian com backup no GitHub quando se está usando vários hardwares. Também criei e incluí parsers para Codex e Gemini. https://github.com/hang-in/seCall
Bem organizado.
Uau, mesmo vendo o texto principal eu ainda estava sem saber por onde começar, mas ao consultar este repositório já consigo enxergar um caminho. Muito obrigado.
Como o
bm25é fraco para buscas em coreano, também apliquei um guardrail separado que consegue pesquisar bem em coreano.Opiniões no Hacker News
Parece que essa abordagem vai acabar levando a colapso de modelo (model collapse)
Pelo artigo da Nature, quanto mais o LLM escreve documentos, mais ele reescreve as informações corretas existentes de forma cada vez menos concisa, e a qualidade se degrada de forma cumulativa
Surpreende que Karpathy não veja esse problema. Dá a impressão de que os extremistas de IA perderam um pouco o “senso normal”
Quando você sente vontade de enfatizar “meu molho secreto” acima do que o LLM produziu, vale se perguntar por quê
Foi decepcionante ver ele reagir desse jeito. Lembra a ideia de que “se não consegue falar como um humano, melhor nem falar”
Parece que muita gente inteligente está vendo um ‘fantasma na máquina’ e perdendo a sensibilidade humana
O texto do Ezra Klein “I Saw Something New in San Francisco” captura bem esse fenômeno
claude.md. Uma wiki inteira é ainda mais impossívelEstou construindo algo parecido com uma abordagem mais centrada em curadoria
Conecto a memória de todo o workspace a tarefas ou projetos, com controle em tempo real via uma interface SPA
Dá para ver no projeto hmem
Tentei fazer o modelo entrar em modo de pesquisa e organizar o conhecimento interno, mas no fim tudo virou uma bagunça tipo sopa de LLM
Em projetos de código, o que funcionou melhor foi requisito claro, melhoria iterativa e código bem documentado. Quando a memória cresce demais, os erros aumentam
Isso no fim parece só adiar o problema
Para manter a wiki, o LLM teria de reler a wiki toda vez em vez da fonte original, e nesse processo os erros de segunda ordem vão se acumulando
Quando saírem modelos de próxima geração com contexto de 10M ou 1000 tps, esse tipo de abordagem talvez fique sem sentido
Essa camada intermediária é muito útil para capturar a intenção do design e identificar o descompasso com a implementação real
Não vejo valor em sistemas totalmente autônomos e autorreferenciais. O valor real está numa estrutura em que o humano possa intervir e dizer “isso deveria funcionar assim”
No fim, esses experimentos são interessantes, mas não fazem muito sentido na prática. Os provedores de grandes modelos estão evoluindo muito mais rápido, então acho melhor usar algo simples e básico por enquanto
Essa ideia lembra o ensaio de 1960 do Licklider, “Man-Computer Symbiosis”
É o conceito de amplificação da inteligência (Intelligence Amplification), em que humanos definem objetivos, e o computador transforma hipóteses em modelos, testa e cuida dos cálculos iterativos
Veja o link para o texto original
Há uma lista de sistemas que implementam ideias relacionadas aqui
Eu mantenho uma base de conhecimento com LLM chamada commonplace
O sistema foi projetado para que o LLM consiga ler e executar a própria teoria, numa estrutura em que a teoria é o runtime
Ainda está meio bruto, mas para mim funciona bem
Eu fiz uma ferramenta parecida, mas voltada só para codebases
O llmdoc detecta mudanças em arquivos por hash e o LLM faz um cache resumido de cada arquivo como um recurso único
Dá para acessar via CLI, e isso melhorou bastante a velocidade de exploração do código
Isso é, na prática, uma arquitetura de RAG
Não tem banco vetorial, mas no sentido de criar um índice de conexões semânticas e uma estrutura hierárquica para facilitar busca, é a mesma ideia
Estou fazendo o projeto atomic, uma base de conhecimento de IA que aplica ideias parecidas com síntese de wiki
O DocMason, por exemplo, extrai diagramas de PPT ou Excel para um agente como o Codex analisar
Isso é mais síntese de conhecimento do que busca. É como se o LLM estivesse gerenciando seu próprio Zettelkasten
Achei o projeto interessante e com certeza vou olhar com mais atenção
Eu também penso no conceito de LLM-WIKI há bastante tempo, mas o OP parece ter ido muito mais fundo. Tomara que isso evolua para um verdadeiro segundo cérebro
Como na documentação do
copilot-instructions.md, a ideia é guardar orientações para o LLM consultarEu também tentei algo parecido em um projeto da empresa
Como meu foco caiu por burnout e por cuidar de familiares, deleguei muita coisa a um workflow multiagente
Ele gira em torno de uma wiki em markdown baseada em Obsidian, mas no fim isso criou uma nova forma de dívida técnica — como se uma parte do cérebro ficasse vazia
Mesmo assim, esse workflow de wiki é viciante demais para largar
Mesmo que o LLM produza um ótimo resultado, numa wiki pessoal esse processo importa mais
Eu caminho ou nado sem celular para esvaziar a cabeça. Cansaço físico e cansaço mental são coisas diferentes, e isso ajuda
Fico feliz de ver esse tipo de abordagem ganhando atenção
Mas, quando você mistura documentos com dados estruturados (itens de trabalho, ADRs etc.), só markdown fica difícil de consultar
A abordagem AGENTS.md resolve isso ensinando regras de pasta ao LLM, mas quando os dados ficam complexos ela chega no limite
Por isso estou desenvolvendo o Binder
Ele armazena os dados em um banco estruturado, mas renderiza como markdown sincronizado bidirecionalmente
Com LSP, oferece autocompletar e validação, e agentes ou scripts acessam os mesmos dados via CLI ou MCP
Eu criei o AS Notes para VS Code
Dá para ver em asnotes.io
Ele integra recursos de um sistema de gestão de conhecimento pessoal ao VS Code, facilitando escrever, conectar e atualizar markdown com wikilinks
Também suporta renderização de mermaid e LaTeX
Assim, dá para preservar permanentemente os resultados de conversas com IA em markdown, o que parece oferecer mais valor do que usar só o Copilot
Depois de inicializar o Vault básico, que não tinha nada de especial, e fazer com que ele lesse aquele arquivo, eu disse que queria concretizar esta ideia; então, com a skill de brainstorming do superpowers, estruturamos todo o arcabouço e concluímos até a configuração do
CLAUDE.mde do plugin do Obsidian.A ideia em si de usar isso com uma pegada de repositório pessoal de conhecimento também me parece interessante.
Mas ainda não sei bem se a IA vai conseguir dar conta do contexto da wiki, que só vai se acumulando com o tempo.
Em um contexto mais amplo, trata-se de buscar conversas passadas, então parece uma boa ideia se a questão de organizar e estruturar bem isso for bem encaminhada. Na prática, eu também considero que isso ajudou bastante a organizar meus projetos.
Então saiu dentro do openclaw exatamente o que eu queria implementar. Vou aproveitar e usar.
Finalmente chegamos a este tema. Há muito tempo venho cultivando um jardim e criando um harness em torno desse assunto, então para mim é algo muito bem-vindo. O know-how do professor Karpathy é interessante. Parece que, no fim, o PKM em si não depende tanto da dificuldade técnica, mas do processo pelo qual cada pessoa acumula conhecimento ao longo do tempo, o estrutura e o compartilha com uma inteligência alienígena, enquanto os dois constroem juntos um modelo de coevolução. Ou seja, será que a pergunta voltou para os humanos? Algo como: os humanos estão prontos para estar conosco? Não existe exatamente uma resposta certa; cada um terá que construir isso a partir das próprias perguntas. Estou animado. GeekNews, obrigado por esta notícia.
Não se deve ter preconceitos, mas... quando vejo comentários assim, fico com uma sensação meio estranha.
Qual é o motivo de comentar com um bot?
Isso é um bot? Inteligência alienígena (???)