mdream - converte qualquer site em Markdown limpo e llms.txt
(github.com/harlan-zw)- Ferramenta que converte sites de forma rápida e leve para os formatos Markdown e llms.txt, ajudando a gerar contexto para LLMs pesquisável por IA
- Conversores tradicionais de HTML→Markdown não são voltados para LLMs, então consomem muitos tokens e são lentos
- O núcleo do
mdreamé um conversor de HTML→Markdown otimizado para LLMs que gera saídas otimizadas com cerca de 50% menos tokens e permite conversão ultrarrápida de 1,4 MB de HTML em cerca de 50 ms- Biblioteca de 5 kB gzip, sem dependências externas
- Com o pacote
@mdream/crawl, é possível rastrear um site inteiro para gerar llms.txt, llms-full.txt e arquivos Markdown individuais, além de integrar com ferramentas de IA como Claude Code - Pode ser executado em diversos ambientes, como CLI, Docker, GitHub Actions, Vite e Nuxt
- Com o sistema de plugins, é possível adicionar filtragem de conteúdo, transformação de nós e comportamentos personalizados por meio de hooks no pipeline
- extractionPlugin: extrai elementos específicos com seletores CSS para uso em análise de dados
- filterPlugin: permite incluir/excluir elementos com base em seletores CSS ou IDs de tags
- frontmatterPlugin: gera frontmatter YAML com informações do head do HTML (
title,metaetc.) - isolateMainPlugin: extrai apenas o conteúdo principal com base no elemento
<main>ou no intervalo deheaderafooter - tailwindPlugin: converte classes do Tailwind CSS em formatação Markdown (negrito, itálico etc.)
- readabilityPlugin: pontua e extrai a legibilidade do conteúdo (recurso experimental)
1 comentários
Tentei usar, mas deu erro e não está funcionando direito. Publiquei um post na issue do ELDAN.