Llama-OCR: tecnologia para converter documentos em Markdown
(llamaocr.com)-
Introdução ao projeto
- Este projeto é uma ferramenta que usa
llama-ocreTogether AIOCRpara converter imagens em Markdown estruturado. - O usuário pode enviar imagens para extrair o texto e convertê-lo para o formato Markdown.
- Este projeto é uma ferramenta que usa
-
Principais recursos
- Oferece recurso de upload de imagens
- Extrai texto de imagens e o converte em Markdown
- Fornece imagens de exemplo para que o usuário possa testar a funcionalidade
-
Exemplo de código
- Fornece um exemplo de código que usa a biblioteca
llama-ocrpara extrair texto de imagens - Gera Markdown ao passar o caminho do arquivo de imagem e a chave de API para a função
ocr
- Fornece um exemplo de código que usa a biblioteca
-
Importância do projeto
- Este projeto aumenta a eficiência do trabalho com documentos ao oferecer uma forma simples de extrair texto de imagens e convertê-lo em Markdown.
- Em comparação com ferramentas de OCR existentes, oferece facilidade de uso e conversão para Markdown.
1 comentários
Comentários do Hacker News
O autor do llama-ocr desenvolveu uma ferramenta que converte imagens em Markdown estruturado com uma API simples. No futuro, planeja adicionar parsing de PDF e saída em JSON
Foi usado o llama3.2-vision para processar folhas de lance de um leilão beneficente, e ele foi bastante preciso mesmo com caligrafia ruim
Modelos de OCR comuns não são adequados para digitalizar texto em fotos de família, e o Gemini Flash foi o melhor
Há dúvidas se isso é apropriado como post de "Show HN", e falta relação com o nome Llama
Uma frase gerada por algoritmo genético foi desenhada como um círculo real, mas não foi reconhecida como texto
Foi enviado um PDF com várias páginas, mas foi informado que isso não é suportado
Foi enviado um screenshot do HN, mas o código Markdown não foi exibido
O OCR em japonês funciona bem por meio da API do ChatGPT
Em um recibo do Walmart, o número 9 foi reconhecido incorretamente como 0