5 pontos por GN⁺ 2024-10-22 | 1 comentários | Compartilhar no WhatsApp
  • Ferramenta para converter sites em ePub
  • Extrai uma lista de páginas HTML de um site e a compila em um livro ePub para que você possa importá-lo para o eReader de sua preferência
  • Usuários avançados que sabem escrever JavaScript podem adicionar definições de analisadores extras para personalizar o parsing do site

Sites compatíveis

  • Novel Update
  • Wuxia World
  • a maioria dos sites do awesome-read-the-docs
  • sites personalizados que usam elementos UL/OL como sumário, ou usam expressões regulares no texto dos links, ou usam seletores de consulta
  • aplicativos web personalizados que usam elementos de título (header) predefinidos e um botão de próxima página (clicável)

Resumo do GN⁺

  • O Epublifier é uma ferramenta que converte conteúdo de sites para o formato ePub, facilitando a leitura em eReaders
  • A ferramenta oferece suporte especialmente a sites como Novel Update e Wuxia World, e usuários avançados podem personalizar o parsing via JavaScript
  • A ferramenta é útil para quem deseja ler conteúdo da web offline, e uma ferramenta com função semelhante é o Calibre

1 comentários

 
GN⁺ 2024-10-22
Comentários do Hacker News
  • O Calibre oferece suporte a muitos sites
  • Esta extensão busca explicar o que a diferencia de outros scrapers
    • Ela serve para gerar ePub em sites onde scrapers tradicionais não funcionam bem
    • Scrapers comuns de linha de comando e outras extensões geralmente só funcionam em sites predefinidos
    • Pode exigir configuração complexa ou código
    • Alguns sites usam JavaScript para gerar ou buscar texto dinamicamente
    • Como roda no navegador, há menos chance de ser detectada e bloqueada
    • Não foi feita para uso repetitivo nem para tarefas em segundo plano
    • Fornece uma UI para facilitar o scraping sem configuração específica para cada site
    • Não se espera desempenho melhor em sites que outros programas/extensões já tratam bem
    • Foi criada justamente por não ficar presa a sites específicos
  • O aspecto interessante deste programa é a UI para extrair conteúdo de sites arbitrários
  • Seria ótimo se conseguisse lidar com sites em que todas as seções ficam escondidas atrás de acordeões
  • Estou criando algo parecido
    • Estou desenvolvendo um scraper web e um parser de ePub para blogs, web novels etc.
    • Também estou desenvolvendo um app companheiro em PWA para leitura offline
  • Às vezes quero obter os ensaios de Paul Graham em ePub
  • Já fiz uma versão simples que salvava arquivos ePub no sistema de arquivos do servidor
    • Usei o Postlight Parser para fornecer uma visualização simplificada do documento do site
  • Esta ferramenta é incrível
    • Já passou a época em que eu armazenava em cache muitas páginas web para viagens offline
  • Fico curioso se ela oferece suporte ao fanfiction.net
  • Eu adoraria vê-la rodando em sites com muita documentação, como AWS, VueJS, MDN, w3schools, realpython e betterstack