3 pontos por GN⁺ 2024-11-17 | 1 comentários | Compartilhar no WhatsApp
  • Introdução ao projeto

    • Este projeto é uma ferramenta que usa llama-ocr e Together AIOCR para converter imagens em Markdown estruturado.
    • O usuário pode enviar imagens para extrair o texto e convertê-lo para o formato Markdown.
  • Principais recursos

    • Oferece recurso de upload de imagens
    • Extrai texto de imagens e o converte em Markdown
    • Fornece imagens de exemplo para que o usuário possa testar a funcionalidade
  • Exemplo de código

    • Fornece um exemplo de código que usa a biblioteca llama-ocr para extrair texto de imagens
    • Gera Markdown ao passar o caminho do arquivo de imagem e a chave de API para a função ocr
  • Importância do projeto

    • Este projeto aumenta a eficiência do trabalho com documentos ao oferecer uma forma simples de extrair texto de imagens e convertê-lo em Markdown.
    • Em comparação com ferramentas de OCR existentes, oferece facilidade de uso e conversão para Markdown.

1 comentários

 
GN⁺ 2024-11-17
Comentários do Hacker News
  • O autor do llama-ocr desenvolveu uma ferramenta que converte imagens em Markdown estruturado com uma API simples. No futuro, planeja adicionar parsing de PDF e saída em JSON

    • No exemplo do webtoon, foi observado um problema em que diálogos em letras maiúsculas eram exibidos de forma diferente em cada painel
    • Foi usado para digitalizar slides antigos, e o amarelo dos slides era na verdade um problema de balanço de branco
    • Como exemplo do viés do modelo, ele reconheceu incorretamente os slides como antiguidades e gerou um título errado
    • Os limites de tamanho de arquivo ou resolução da API não estão documentados
  • Foi usado o llama3.2-vision para processar folhas de lance de um leilão beneficente, e ele foi bastante preciso mesmo com caligrafia ruim

    • Foi inconveniente o fato de a saída não ser gerada de forma consistente em CSV
    • Como a escala do problema era de cerca de 100 páginas, foi possível fazer a organização manualmente
  • Modelos de OCR comuns não são adequados para digitalizar texto em fotos de família, e o Gemini Flash foi o melhor

    • Ainda há muitos erros, então fazer manualmente é mais rápido
  • Há dúvidas se isso é apropriado como post de "Show HN", e falta relação com o nome Llama

  • Uma frase gerada por algoritmo genético foi desenhada como um círculo real, mas não foi reconhecida como texto

  • Foi enviado um PDF com várias páginas, mas foi informado que isso não é suportado

  • Foi enviado um screenshot do HN, mas o código Markdown não foi exibido

  • O OCR em japonês funciona bem por meio da API do ChatGPT

  • Em um recibo do Walmart, o número 9 foi reconhecido incorretamente como 0