defuddle - extrai qualquer página da web em Markdown

xguru · 2026-03-16T09:47:01+09:00

Um parser de conteúdo que remove comentários, barras laterais, cabeçalhos e rodapés desnecessários de páginas da web e extrai apenas o conteúdo principal refinado em HTML/Markdown Em vídeos do YouTube, extrai as falas separando-as por locutor (a partir da versão 0.12.0) Desenvolvido para o Obsidian Web Clipper, mas pode ser usado em vários ambientes, como navegador e Node.js Projetado como substituto do Mozilla Readability, oferecendo processamento mais flexível e saída mais consistente Minimiza a remoção de elementos incertos Suporta saída padronizada para notas de rodapé, fórmulas, blocos de código etc. Detecta elementos desnecessários por meio de análise de estilo móvel Extrai automaticamente mais metadados, incluindo metadados do schema.org Suporta interface CLI, permitindo analisar HTML e URLs diretamente no terminal Licença MIT

(github.com/kepano)

56 pontos por xguru 2026-03-16 | 8 comentários | Compartilhar no WhatsApp

Um parser de conteúdo que remove comentários, barras laterais, cabeçalhos e rodapés desnecessários de páginas da web e extrai apenas o conteúdo principal refinado em HTML/Markdown
Em vídeos do YouTube, extrai as falas separando-as por locutor (a partir da versão 0.12.0)
Desenvolvido para o Obsidian Web Clipper, mas pode ser usado em vários ambientes, como navegador e Node.js
Projetado como substituto do Mozilla Readability, oferecendo processamento mais flexível e saída mais consistente
- Minimiza a remoção de elementos incertos
- Suporta saída padronizada para notas de rodapé, fórmulas, blocos de código etc.
- Detecta elementos desnecessários por meio de análise de estilo móvel
- Extrai automaticamente mais metadados, incluindo metadados do schema.org
Suporta interface CLI, permitindo analisar HTML e URLs diretamente no terminal
Licença MIT

8 comentários

tested 2026-03-16

Jina AI Reader - ferramenta que transforma URLs em entradas amigáveis para LLMs

tested 2026-03-16

Tomara que os links internos do GeekNews ganhem o título automaticamente...

xguru 2026-03-16

Fiz a correção. A partir de agora, os comentários adicionados terão o título convertido automaticamente.

tested 2026-03-16

Uau, obrigado

crawler 2026-03-16

Nossa, então era algo que funcionava tão de cara assim, hein 😳 eu também já passei por esse incômodo, devia ter comentado.

xguru 2026-03-16

Defuddle - open source HTML-to-Markdown para substituir o Readability
Já tinha aparecido por aqui uma vez há 10 meses, mas desta vez foi adicionada a função de extrair a conversa de vídeos do YouTube com separação por falante.
E nesse meio-tempo também foram adicionados muitos recursos, como extração assíncrona de URLs do X, extração de artigos, suporte ao app do Substack, adição de CLI e suporte a URLs do GitHub.

shakespeares 2026-03-16

A extração em Markdown fica meio inconsistente. Parece que só extrai bem quando a página segue exatamente critérios com SEO bem aplicado. É isso mesmo?

dbs0829 2026-03-16

Quando uso junto com o Claude Code, fica realmente muito bom.

defuddle - extrai qualquer página da web em Markdown

Leituras relacionadas

8 comentários