ArchiveBox está evoluindo: o futuro do arquivo de internet self-hosted
(docs.sweeting.me)- O ArchiveBox apresenta novos recursos para hospedar seu próprio arquivo da internet
- Após os ataques recentes ao Archive.org, o interesse pelo ArchiveBox vem aumentando
- O ArchiveBox enfatiza que apoia a missão do Archive.org e que seus serviços oferecem um valor importante para a humanidade
Limites dos arquivos públicos
- As pessoas relutam em arquivar por medo do que significa preservar algo permanentemente
- É preciso que os indivíduos tenham o direito de arquivar aquilo que consideram importante
- É necessária uma solução capaz de arquivar conteúdo pessoal e semiprivado, adequada ao ambiente web moderno
A importância do arquivamento
- Famílias, indivíduos e empresas querem preservar o conteúdo que é importante para eles
- O arquivamento de conteúdo pessoal traz desafios de segurança e exige cautela
Conteúdo malicioso
- Arquivos públicos às vezes podem gerar problemas ao preservar conteúdos como racismo, violência e discurso de ódio
- É necessário refletir sobre como esse tipo de conteúdo deve ser preservado
Apresentação do novo ecossistema de plugins do ArchiveBox
- O ArchiveBox v0.8 é a maior atualização da história do projeto e introduz um novo ecossistema de plugins
- Estão incluídos plugins que oferecem diversos recursos apoiados pela comunidade
yt-dlpbaixa vídeos, áudios e legendas de YouTube, Soundcloud, YouKu e outros serviçospapers-dlbaixa automaticamente PDFs de artigos científicos quando encontra um número DOIgallery-dlbaixa galerias de fotos do Flickr, Instagram e outros serviçosforum-dlbaixa fóruns antigos e threads de comentários profundamente aninhadasreadabilityextrai o texto de artigos para .txt, .md e .epubaienvia capturas de tela e texto da página para um LLM com prompts personalizados e salva a respostawebhooksaciona APIs externas sempre que certos resultados são salvos e envia pings para Slack, N8N e outros serviços- E há muitos outros recursos
- O sistema de plugins é baseado nas bibliotecas pluggy e pydantic
Desenvolvimentos adicionais
- Uma nova REST API foi construída com django-ninja
- Foi adicionado suporte a armazenamento externo
- Foi introduzida a fase inicial de um sistema de armazenamento com endereçamento por conteúdo
- Foi adicionado um sistema de tarefas em segundo plano
- Em breve será lançado o novo utilitário abx-dl para usuários que querem algo mais simples
"O ArchiveBox foi projetado com SQLite em uma abordagem local-first, e P2P é sempre opcional"
Resumo do GN⁺
- O ArchiveBox é uma ferramenta que ajuda pessoas e empresas a construir seu próprio arquivo da internet, e as mudanças recentes reforçam ainda mais isso
- Ele complementa as limitações dos arquivos públicos e oferece uma forma de preservar com segurança conteúdo pessoal e sensível
- O ecossistema de plugins oferece uma ampla variedade de recursos e melhora a experiência do usuário
2 comentários
ArchiveBox - ferramenta de arquivamento da web com self-hosting
Comentários do Hacker News
Há opiniões sobre a sustentabilidade do ArchiveBox e a necessidade de melhorias. A participação da comunidade é importante, e há compreensão das dificuldades de um desenvolvedor solo.
Há expectativa pela nova API e pelos plugins do ArchiveBox. Está sendo usado para arquivamento há 2 anos.
Ferramentas como
grab-sitepodem ser úteis para gerar e armazenar arquivos WARC. Pode ser necessário suporte a índice CDX e assinaturas criptográficas para arquivamento distribuído.Foi compartilhada uma experiência de uso do ArchiveBox para arquivar informações sobre barcos antigos. Foi expressa tristeza pelo desaparecimento de antigos fóruns da web.
Readeck.org está sendo usado para arquivar páginas pessoais da web, e há interesse na direção de arquivamento distribuído do ArchiveBox.
Houve uma pergunta sobre a disponibilidade do
abx-dle foi manifestada disposição para ajudar com suporte de empacotamento.Há expectativa em relação à API REST, e foi expressa frustração com a ausência de função de busca. É necessária uma função de consulta por meio de índice FTS.
Há a percepção de que é preciso tentar usar o ArchiveBox para arquivar sites. A função de exportação de arquivo da assinatura do Pinboard não está funcionando.
Foi feita uma sugestão de criar uma árvore de Merkle para os dados arquivados. Blockchain pode ser considerada como uma forma de provar a autenticidade dos dados.
Foi pedido um recomendação para um sistema auto-hospedado de monitoramento de mudanças em sites. Huginn está em uso, mas há dificuldades com sites modernos baseados em JS.