1 comentários

 
GN⁺ 2024-04-15
Comentários do Hacker News

Em resumo, é o seguinte:

  • Ao desenvolver uma ferramenta que converte páginas web em Markdown, há preocupações com gerenciamento de carga e sustentabilidade de um serviço gratuito
  • Na conversão de páginas web para Markdown, os problemas mais importantes são os seguintes:
    1. raspagem minuciosa do conteúdo da página (alto recall)
    2. remoção de anúncios/conteúdo auxiliar (alta precisão)
    3. extração correta do layout/tipos de seção (formatação)
  • Ferramentas open source existentes (Trafilatura, Newspaper4k, python-readability etc.) já mostram desempenho acima de certo nível. Há curiosidade sobre quais seriam os diferenciais ou pontos de melhoria
  • Em sites que exibem mensagens de cookies, há o problema de o parser capturar apenas o conteúdo relacionado a cookies em vez do conteúdo real (ex.: cnbc.com)
  • A ideia de usar GPT para download e filtragem de imagens é boa
  • Apresentação de ferramentas semelhantes:
    • url2text.com: permite extrair junto HTML renderizado por JS, metadados, capturas de tela etc.
    • firecrawl.dev: oferece recurso de rastreamento do site inteiro, não apenas de uma única página
    • substack-ai.vercel.app: especializado na extração de conteúdo de newsletters do Substack
    • content-parser.com: suporta vários formatos, como Markdown, HTML, texto, PDF etc.
  • Também é possível implementar funcionalidade semelhante com ferramentas genéricas de conversão de documentos como pandoc
  • A maioria das ferramentas é desenvolvida aproveitando o projeto readability da Mozilla