ArchiveBox - ferramenta de arquivamento web self-hosted
(archivebox.io)- Open source que salva qualquer site para poder ser visualizado offline
- Salva HTML/JS/PDF/mídia a partir de URLs adicionadas manualmente, histórico do navegador (com extensão disponível), favoritos, RSS, Pocket/Pinboard etc.
- É possível adicionar um por um ou agendar importações periódicas
- Pode ser instalado em Linux, macOS e Windows (WSL2) ou executado com Docker, sendo usado via ferramenta de CLI, web app, biblioteca Python ou comandos avulsos
- Salva snapshots de URLs em vários formatos redundantes e detecta todo o conteúdo incluído na página para extrair em pastas
- HTML/todos os sites: HTML+CSS+JS original, HTML singlefile, screenshot em PNG, PDF, WARC, título, texto do conteúdo, favicon, headers, …
- Redes sociais/notícias: conteúdo do artigo em TXT, comentários, título, salvamento, imagens, …
- YouTube/SoundCloud/etc.: MP3/MP4s, legendas, metadados, thumbnail, …
- Links do Github/Gitlab/etc.: clone do código-fonte GIT, README, imagens, …
- Em vez de usar um formato próprio, utiliza ferramentas padrão como Chrome, wget e yt-dlp para salvar em arquivos/pastas comuns. Ou seja, todos os dados podem ser lidos mesmo sem o ArchiveBox
- Envia as URLs salvas para o archive.org para solicitar arquivamento adicional (armazenamento duplicado; pode ser desativado no modo somente local)
3 comentários
Ultimamente, enquanto experimento o Obsidian, tenho tentado salvar em Markdown com o plugin Instapaper -> Obsidian, mas o conteúdo acaba não sendo importado de forma tão limpa quanto eu esperava.
Eu tinha subido um Go-Readability no AWS Lambda e parei no meio por preguiça, então acho que também vou procurar se existe algo que se integre bem com ferramentas desse tipo. Obrigado!
Sempre que vejo a palavra-chave arquivamento, acabo olhando com mais atenção. Estes são alguns artigos antigos do GeekNews relacionados ao tema.
Ah, o link do GeekNews do Shori é https://pt.news.hada.io/topic?id=577.