- Um parser de conteúdo que remove comentários, barras laterais, cabeçalhos e rodapés desnecessários de páginas da web e extrai apenas o conteúdo principal refinado em HTML/Markdown
- Em vídeos do YouTube, extrai as falas separando-as por locutor (a partir da versão 0.12.0)
- Desenvolvido para o Obsidian Web Clipper, mas pode ser usado em vários ambientes, como navegador e Node.js
- Projetado como substituto do Mozilla Readability, oferecendo processamento mais flexível e saída mais consistente
- Minimiza a remoção de elementos incertos
- Suporta saída padronizada para notas de rodapé, fórmulas, blocos de código etc.
- Detecta elementos desnecessários por meio de análise de estilo móvel
- Extrai automaticamente mais metadados, incluindo metadados do schema.org
- Suporta interface CLI, permitindo analisar HTML e URLs diretamente no terminal
- Licença MIT
8 comentários
Defuddle - open source HTML-to-Markdown para substituir o Readability
Já tinha aparecido por aqui uma vez há 10 meses, mas desta vez foi adicionada a função de extrair a conversa de vídeos do YouTube com separação por falante.
E nesse meio-tempo também foram adicionados muitos recursos, como extração assíncrona de URLs do X, extração de artigos, suporte ao app do Substack, adição de CLI e suporte a URLs do GitHub.
Jina AI Reader - ferramenta que transforma URLs em entradas amigáveis para LLMs
Tomara que os links internos do GeekNews ganhem o título automaticamente...
Fiz a correção. A partir de agora, os comentários adicionados terão o título convertido automaticamente.
Uau, obrigado
Nossa, então era algo que funcionava tão de cara assim, hein 😳 eu também já passei por esse incômodo, devia ter comentado.
A extração em Markdown fica meio inconsistente. Parece que só extrai bem quando a página segue exatamente critérios com SEO bem aplicado. É isso mesmo?
Quando uso junto com o Claude Code, fica realmente muito bom.