- Ferramenta open source que converte dados de plataformas como Reddit, Voat e Ruqqus em um arquivo HTML baseado em PostgreSQL
- Processa localmente 2,38 bilhões de posts do Reddit (incluindo mais de 40 mil subreddits) e oferece design amigável para dispositivos móveis e interface sem JavaScript
- Em um cenário em que o acesso à API do Reddit foi praticamente interrompido e apps de terceiros e o acesso a dados foram bloqueados, a proposta é usar o conjunto de dados Pushshift existente para transformar um arquivo completo do Reddit em posse pessoal
- Funciona como HTML estático sem JavaScript, requisições externas ou rastreamento, podendo ser operado offline, em ambientes air-gapped, via USB, Raspberry Pi, servidor LAN e outras formas
- Oferece suporte a análise em larga escala e consultas com busca textual completa (FTS) do PostgreSQL, mais de 30 APIs REST e um servidor MCP (29 ferramentas) para integração com ferramentas de IA
Mudanças no ambiente de acesso aos dados do Reddit
- A API do Reddit passou a ser, na prática, inutilizável para fins de arquivamento
- Colapso do ecossistema de apps de terceiros e repetidas ameaças de bloqueio ao acesso ao conjunto de dados Pushshift
- O conjunto de dados Pushshift é um grande arquivo acumulado ao longo do tempo com posts e comentários públicos do Reddit, incluindo dezenas de bilhões de registros de texto
- Trata-se de dados de snapshot de momentos passados coletados por meio da API oficial do Reddit, que podem ser usados sem acessar os servidores ou a API atual do Reddit
- Após mudanças na política da API e restrições de acesso a dados, ele vem sendo usado como praticamente o último recurso público de dados para preservar a história do Reddit e realizar análises em larga escala
- O histórico completo do Reddit do passado já foi publicado em forma de torrent por meio do Pushshift
Visão geral do projeto Redd-Archiver
- Redd-Archiver v1.0 converte dumps públicos de dados de Reddit, Voat e Ruqqus para gerar um arquivo HTML navegável
- Usa backend PostgreSQL para processar grandes conjuntos de dados com memória estável (4GB) e oferece buscas rápidas com FTS baseada em indexação GIN
- A saída em HTML permite ordenar, paginar e navegar por árvores de comentários mesmo offline
Estrutura principal da ferramenta de arquivamento Redd-Archiver
- Usa como entrada dumps de Reddit (
.zst), Voat (SQL) e Ruqqus (.7z)
- Integração multiplataforma: combina 3 plataformas em um único arquivo, com detecção automática da plataforma e busca unificada
- Fornece a estrutura de caminhos
/r/, /v/, /g/ por meio de flags de CLI e prefixos de URL
- Gera arquivos HTML estáticos, eliminando dependência de servidor
- É possível navegar apenas abrindo
index.html, sem necessidade de rede externa
- Layout responsivo mobile-first e navegação amigável ao toque
- Índices com ordenação por pontuação, comentários e data, além de paginação
- Interações em CSS sem JavaScript
- A configuração de FTS no PostgreSQL dá suporte a busca textual completa unificada entre plataformas
- Filtragem por palavra-chave, autor, data, pontuação etc.
- Fornece API REST com consultas de posts, comentários, usuários, subreddits e agregações
- Inclui um servidor MCP para que ferramentas de IA consultem diretamente o arquivo
- No Claude Desktop ou Claude Code, é possível consultar posts, comentários, usuários e buscas
- Pode processar dezenas de milhões de posts por instância
- Com a estrutura do PostgreSQL, o uso de memória permanece constante independentemente do tamanho dos dados
- Para os 2.38B posts completos, recomenda-se operação distribuída em múltiplas instâncias por tema
- Implementado com Python, PostgreSQL, Jinja2 e Docker (com Claude Code usado amplamente como apoio de desenvolvimento)
Cenários de implantação e operação
- Suporta navegação offline via drive USB ou pasta local
- Local/homelab: execução em ambiente HTTP ou Tor com um único comando
- HTTPS em produção: configuração automática de certificado Let’s Encrypt (cerca de 5 minutos)
- Serviço oculto Tor: acesso por endereço
.onion sem port forwarding
- Hospedagem estática: pode ser enviado para GitHub Pages ou Codeberg Pages (sem o recurso de busca)
- Implantação com Docker: configuração totalmente automatizada incluindo PostgreSQL
- Suporte a navegação offline, servidor de busca local e modo simultâneo Tor/HTTPS
Informações públicas
1 comentários
Comentários no Hacker News
É uma ótima forma de hospedar por conta própria um arquivo
Pessoalmente, eu gostaria que existisse um plugin que restaurasse automaticamente comentários apagados ou sobrescritos por bots para a versão original
Hoje em dia é difícil usar o Reddit porque metade dos links antigos virou comentário inútil por causa dessas sobrescritas de protesto
Ironicamente, o original continua em arquivos para treinamento de IA, mas, do ponto de vista do usuário, fica impossível encontrar algo como uma solução para driver de impressora de 2 anos atrás
O objetivo era justamente tornar o site menos útil, e o centro do protesto era fazer os usuários irem embora
Não vou ficar vasculhando arquivos para invalidar essa decisão. Só sigo em frente
Os dados podem ser baixados via torrent
Link: repositório do redd-archiver
Isso ajuda a decidir quais comunidades priorizar na preservação
É um projeto realmente incrível
Além do PushShift, existem outros arquivos — por exemplo, Arctic Shift e PullPush — que oferecem conjuntos de dados diferentes
Dependendo do escopo dos pedidos de remoção, os posts ou comentários incluídos podem variar
Fico pensando se não daria para usar esses dados para semear de novo uma mídia social descentralizada
Como se estivesse fazendo um fork do projeto
A API também dá suporte a isso, então dá para hospedar o arquivo de forma colaborativa e descentralizada
Projeto bem interessante mesmo
A dúvida é se o conjunto de dados do Pushshift é atualizado regularmente ou se é apenas um snapshot de um momento específico
Queria saber se, ao hospedar por conta própria, é preciso baixar de novo os dados periodicamente
O watchful1 está dividindo e reprocessando os dados, e no futuro a ideia é trazer os dumps do Arctic Shift para oferecer atualizações mensais
Links relacionados:
Também estou tocando um projeto parecido e enviei os dados do Pushshift Reddit para o Hugging Face Datasets
Quando o seed do torrent está fraco, dá para baixar arquivos individuais direto em huggingface.co/datasets/nick007x/pushshift-reddit
Isso é útil para quem quer testar dados mensais ou apenas um subreddit específico
Tentei subir o ambiente local com Docker Compose, mas não consegui
Não existe arquivo
.env.examplee, mesmo configurando as variáveis de ambiente manualmente, surgem problemas com caminho de volumeParece que ainda precisa de mais acabamento
mkdirCommits relacionados: 0bb1039, c3754ea
Fiquei pensando se seria possível integrar isso com o app Apollo morto para recriar um momento passado do Reddit
Eu não quero guardar o Reddit inteiro no meu computador
Seria bom poder escolher apenas subreddits específicos
O watchful1 dividiu os dados por subreddit, então dá para baixar só a parte desejada
Gostaria de saber se há alguma forma de verificar se subreddits que viraram privados 2 ou 3 anos atrás estão incluídos no dump de dados
Dá para verificar se é privado pelo campo de status, e há muitos outros detalhes