9 pontos por GN⁺ 2024-11-10 | 1 comentários | Compartilhar no WhatsApp
  • Uma ferramenta poderosa para converter HTML em Markdown limpo e fácil de ler
  • Suporta formatações complexas e permite controlar completamente o processo de conversão por meio de opções personalizadas e plugins
  • Pode ser usada como biblioteca Golang ou comando CLI, ou testada diretamente por meio da demo online ou da REST API

Principais recursos

  • Bold & Italic: oferece suporte a negrito e itálico até mesmo dentro de palavras
  • List: oferece suporte perfeito a listas ordenadas e não ordenadas com aninhamento completo
  • Blockquote: pode incluir outros elementos dentro de citações e também oferece suporte fluido a citações aninhadas
  • Inline Code & Code Block: processa corretamente crases e blocos de código com múltiplas linhas, preservando a estrutura do código
  • Link & Image: formata corretamente links em várias linhas e adiciona escapes para linhas em branco
  • Smart Escaping: escapa caracteres especiais apenas quando necessário para evitar renderização inesperada em Markdown
  • Remove/Keep HTML: oferece a opção de remover ou manter tags HTML específicas
  • Plugin: permite expandir plugins facilmente ou criar plugins personalizados para aprimorar funcionalidades
    • Se precisar de lógica personalizada, você pode escrever e registrá-la
    • Se não gostar da configuração padrão, pode usar PriorityEarly para executar sua lógica antes das demais
  • O Converter pode ser usado em várias goroutines e utiliza mutex internamente

1 comentários

 
GN⁺ 2024-11-10
Comentários do Hacker News
  • Com a API gratuita da Jina.ai, é possível buscar uma URL e obter um documento em Markdown sem autenticação nem chave de API

    • Ela não consegue processar alguns sites, mas na maioria dos casos pode fazer 90% do trabalho
    • É possível usar o Pandoc para converter HTML em Markdown
  • Fico curioso se esta ferramenta com licença MIT poderia servir como alternativa ao p2k, Instapaper e similares para ler no Kindle

    • Esses serviços têm renderização imprecisa e cobram assinatura
    • Se o projeto for mantido ativamente, eu poderia testá-lo com vários artigos e reportar problemas
  • Uso esta biblioteca em uma função Lambda para converter URLs em Markdown e salvar no S3

    • Conectei como webhook a todos os meus apps de favoritos e salvo em Markdown tudo o que marco
    • É prático para importar no Obsidian
  • Parece útil para fornecer dados de páginas web a LLMs

    • Criei uma ferramenta parecida para o ecossistema Elixir, mas é limitada
    • Posso aproveitar a ideia
  • Seria bom se a ferramenta tivesse uma função de deduplicação por n-gram

    • É necessário um recurso para remover conteúdo repetido em cabeçalhos e rodapés
  • Com o Urlbox, é possível obter screenshots fiéis de páginas web e também Markdown

    • Dá para usar essa funcionalidade com uma ferramenta gratuita
  • RedditToMarkdown e urltomarkdown.com são úteis para criar apps com LLM e IA

  • Estou procurando uma biblioteca semelhante para usar em um app Kotlin/Spring

    • Ao converter de HTML para Markdown, a string do documento HTML já está limpa
  • Uma das dificuldades ao usar esse tipo de ferramenta é lidar com blocos de código com destaque de sintaxe

    • Fico curioso sobre como o html-to-markdown se comporta nesses cenários