Ao desenvolver uma ferramenta que converte páginas web em Markdown, há preocupações com gerenciamento de carga e sustentabilidade de um serviço gratuito
Na conversão de páginas web para Markdown, os problemas mais importantes são os seguintes:
raspagem minuciosa do conteúdo da página (alto recall)
remoção de anúncios/conteúdo auxiliar (alta precisão)
extração correta do layout/tipos de seção (formatação)
Ferramentas open source existentes (Trafilatura, Newspaper4k, python-readability etc.) já mostram desempenho acima de certo nível. Há curiosidade sobre quais seriam os diferenciais ou pontos de melhoria
Em sites que exibem mensagens de cookies, há o problema de o parser capturar apenas o conteúdo relacionado a cookies em vez do conteúdo real (ex.: cnbc.com)
A ideia de usar GPT para download e filtragem de imagens é boa
Apresentação de ferramentas semelhantes:
url2text.com: permite extrair junto HTML renderizado por JS, metadados, capturas de tela etc.
firecrawl.dev: oferece recurso de rastreamento do site inteiro, não apenas de uma única página
substack-ai.vercel.app: especializado na extração de conteúdo de newsletters do Substack
content-parser.com: suporta vários formatos, como Markdown, HTML, texto, PDF etc.
Também é possível implementar funcionalidade semelhante com ferramentas genéricas de conversão de documentos como pandoc
A maioria das ferramentas é desenvolvida aproveitando o projeto readability da Mozilla
1 comentários
Comentários do Hacker News
Em resumo, é o seguinte:
Trafilatura,Newspaper4k,python-readabilityetc.) já mostram desempenho acima de certo nível. Há curiosidade sobre quais seriam os diferenciais ou pontos de melhoriacnbc.com)url2text.com: permite extrair junto HTML renderizado por JS, metadados, capturas de tela etc.firecrawl.dev: oferece recurso de rastreamento do site inteiro, não apenas de uma única páginasubstack-ai.vercel.app: especializado na extração de conteúdo de newsletters do Substackcontent-parser.com: suporta vários formatos, como Markdown, HTML, texto, PDF etc.pandocreadabilityda Mozilla