18 pontos por GN⁺ 2024-10-17 | 2 comentários | Compartilhar no WhatsApp
  • O ArchiveBox apresenta novos recursos para hospedar seu próprio arquivo da internet
  • Após os ataques recentes ao Archive.org, o interesse pelo ArchiveBox vem aumentando
    • O ArchiveBox enfatiza que apoia a missão do Archive.org e que seus serviços oferecem um valor importante para a humanidade

Limites dos arquivos públicos

  • As pessoas relutam em arquivar por medo do que significa preservar algo permanentemente
  • É preciso que os indivíduos tenham o direito de arquivar aquilo que consideram importante
  • É necessária uma solução capaz de arquivar conteúdo pessoal e semiprivado, adequada ao ambiente web moderno

A importância do arquivamento

  • Famílias, indivíduos e empresas querem preservar o conteúdo que é importante para eles
  • O arquivamento de conteúdo pessoal traz desafios de segurança e exige cautela

Conteúdo malicioso

  • Arquivos públicos às vezes podem gerar problemas ao preservar conteúdos como racismo, violência e discurso de ódio
  • É necessário refletir sobre como esse tipo de conteúdo deve ser preservado

Apresentação do novo ecossistema de plugins do ArchiveBox

  • O ArchiveBox v0.8 é a maior atualização da história do projeto e introduz um novo ecossistema de plugins
  • Estão incluídos plugins que oferecem diversos recursos apoiados pela comunidade
    • yt-dlp baixa vídeos, áudios e legendas de YouTube, Soundcloud, YouKu e outros serviços
    • papers-dl baixa automaticamente PDFs de artigos científicos quando encontra um número DOI
    • gallery-dl baixa galerias de fotos do Flickr, Instagram e outros serviços
    • forum-dl baixa fóruns antigos e threads de comentários profundamente aninhadas
    • readability extrai o texto de artigos para .txt, .md e .epub
    • ai envia capturas de tela e texto da página para um LLM com prompts personalizados e salva a resposta
    • webhooks aciona APIs externas sempre que certos resultados são salvos e envia pings para Slack, N8N e outros serviços
    • E há muitos outros recursos
  • O sistema de plugins é baseado nas bibliotecas pluggy e pydantic

Desenvolvimentos adicionais

  • Uma nova REST API foi construída com django-ninja
  • Foi adicionado suporte a armazenamento externo
  • Foi introduzida a fase inicial de um sistema de armazenamento com endereçamento por conteúdo
  • Foi adicionado um sistema de tarefas em segundo plano
  • Em breve será lançado o novo utilitário abx-dl para usuários que querem algo mais simples

"O ArchiveBox foi projetado com SQLite em uma abordagem local-first, e P2P é sempre opcional"

Resumo do GN⁺

  • O ArchiveBox é uma ferramenta que ajuda pessoas e empresas a construir seu próprio arquivo da internet, e as mudanças recentes reforçam ainda mais isso
  • Ele complementa as limitações dos arquivos públicos e oferece uma forma de preservar com segurança conteúdo pessoal e sensível
  • O ecossistema de plugins oferece uma ampla variedade de recursos e melhora a experiência do usuário

2 comentários

 
GN⁺ 2024-10-17
Comentários do Hacker News
  • Há opiniões sobre a sustentabilidade do ArchiveBox e a necessidade de melhorias. A participação da comunidade é importante, e há compreensão das dificuldades de um desenvolvedor solo.

    • O ArchiveBox precisa do apoio da comunidade para se tornar um projeto mais estável e confiável.
    • Arquivar não é apenas sobre o passado, mas também sobre o futuro, e pode ser necessária uma organização de desenvolvimento sustentável.
  • Há expectativa pela nova API e pelos plugins do ArchiveBox. Está sendo usado para arquivamento há 2 anos.

  • Ferramentas como grab-site podem ser úteis para gerar e armazenar arquivos WARC. Pode ser necessário suporte a índice CDX e assinaturas criptográficas para arquivamento distribuído.

  • Foi compartilhada uma experiência de uso do ArchiveBox para arquivar informações sobre barcos antigos. Foi expressa tristeza pelo desaparecimento de antigos fóruns da web.

  • Readeck.org está sendo usado para arquivar páginas pessoais da web, e há interesse na direção de arquivamento distribuído do ArchiveBox.

  • Houve uma pergunta sobre a disponibilidade do abx-dl e foi manifestada disposição para ajudar com suporte de empacotamento.

  • Há expectativa em relação à API REST, e foi expressa frustração com a ausência de função de busca. É necessária uma função de consulta por meio de índice FTS.

  • Há a percepção de que é preciso tentar usar o ArchiveBox para arquivar sites. A função de exportação de arquivo da assinatura do Pinboard não está funcionando.

  • Foi feita uma sugestão de criar uma árvore de Merkle para os dados arquivados. Blockchain pode ser considerada como uma forma de provar a autenticidade dos dados.

  • Foi pedido um recomendação para um sistema auto-hospedado de monitoramento de mudanças em sites. Huginn está em uso, mas há dificuldades com sites modernos baseados em JS.