- Ferramenta que converte sites de forma rápida e leve para os formatos Markdown e llms.txt, ajudando a gerar contexto para LLMs pesquisável por IA
- Conversores tradicionais de HTML→Markdown não são voltados para LLMs, então consomem muitos tokens e são lentos
- O núcleo do
mdream é um conversor de HTML→Markdown otimizado para LLMs que gera saídas otimizadas com cerca de 50% menos tokens e permite conversão ultrarrápida de 1,4 MB de HTML em cerca de 50 ms
- Biblioteca de 5 kB gzip, sem dependências externas
- Com o pacote
@mdream/crawl, é possível rastrear um site inteiro para gerar llms.txt, llms-full.txt e arquivos Markdown individuais, além de integrar com ferramentas de IA como Claude Code
- Pode ser executado em diversos ambientes, como CLI, Docker, GitHub Actions, Vite e Nuxt
- Com o sistema de plugins, é possível adicionar filtragem de conteúdo, transformação de nós e comportamentos personalizados por meio de hooks no pipeline
- extractionPlugin: extrai elementos específicos com seletores CSS para uso em análise de dados
- filterPlugin: permite incluir/excluir elementos com base em seletores CSS ou IDs de tags
- frontmatterPlugin: gera frontmatter YAML com informações do head do HTML (
title, meta etc.)
- isolateMainPlugin: extrai apenas o conteúdo principal com base no elemento
<main> ou no intervalo de header a footer
- tailwindPlugin: converte classes do Tailwind CSS em formatação Markdown (negrito, itálico etc.)
- readabilityPlugin: pontua e extrai a legibilidade do conteúdo (recurso experimental)
1 comentários
Tentei usar, mas deu erro e não está funcionando direito. Publiquei um post na issue do ELDAN.