56 pontos por xguru 2026-03-16 | 8 comentários | Compartilhar no WhatsApp
  • Um parser de conteúdo que remove comentários, barras laterais, cabeçalhos e rodapés desnecessários de páginas da web e extrai apenas o conteúdo principal refinado em HTML/Markdown
  • Em vídeos do YouTube, extrai as falas separando-as por locutor (a partir da versão 0.12.0)
  • Desenvolvido para o Obsidian Web Clipper, mas pode ser usado em vários ambientes, como navegador e Node.js
  • Projetado como substituto do Mozilla Readability, oferecendo processamento mais flexível e saída mais consistente
    • Minimiza a remoção de elementos incertos
    • Suporta saída padronizada para notas de rodapé, fórmulas, blocos de código etc.
    • Detecta elementos desnecessários por meio de análise de estilo móvel
    • Extrai automaticamente mais metadados, incluindo metadados do schema.org
  • Suporta interface CLI, permitindo analisar HTML e URLs diretamente no terminal
  • Licença MIT

8 comentários

 
xguru 2026-03-16

Defuddle - open source HTML-to-Markdown para substituir o Readability
Já tinha aparecido por aqui uma vez há 10 meses, mas desta vez foi adicionada a função de extrair a conversa de vídeos do YouTube com separação por falante.
E nesse meio-tempo também foram adicionados muitos recursos, como extração assíncrona de URLs do X, extração de artigos, suporte ao app do Substack, adição de CLI e suporte a URLs do GitHub.

 
tested 2026-03-16

Tomara que os links internos do GeekNews ganhem o título automaticamente...

 
xguru 2026-03-16

Fiz a correção. A partir de agora, os comentários adicionados terão o título convertido automaticamente.

 
tested 2026-03-16

Uau, obrigado

 
crawler 2026-03-16

Nossa, então era algo que funcionava tão de cara assim, hein 😳 eu também já passei por esse incômodo, devia ter comentado.

 
shakespeares 2026-03-16

A extração em Markdown fica meio inconsistente. Parece que só extrai bem quando a página segue exatamente critérios com SEO bem aplicado. É isso mesmo?

 
dbs0829 2026-03-16

Quando uso junto com o Claude Code, fica realmente muito bom.