OCR4all - OCR para todos

(ocr4all.org)

39 pontos por GN⁺ 2025-02-15 | 1 comentários | Compartilhar no WhatsApp

Totalmente gratuito e open source. Sem assinatura/recursos pagos/código oculto
Pode ser aplicado com flexibilidade, desde o processamento de alta qualidade de manuscritos desafiadores até o reconhecimento massivo de texto completo de materiais impressos
Suporte robusto para anotação de layout e texto
- Usando o editor LAREX, é possível anotar manualmente, corrigir ou comparar elementos de layout e texto
Totalmente compatível com o ecossistema OCR-D
Design pensado para usabilidade: é possível criar fluxos de trabalho complexos de OCR pela UI sem usar código/CLI
Desenvolvimento multiplataforma fácil: pode ser executado com Docker e um único comando, independentemente do sistema operacional

1 comentários

GN⁺ 2025-02-15

Comentários do Hacker News

Pipelines complexos de segmentação eram necessários alguns anos atrás, mas agora geram muitos erros e tiram do modelo um contexto importante. Para avançar para manuscritos, contexto é necessário
- Para decifrar manuscritos históricos, especialistas provavelmente dirão que é preciso o documento inteiro
- É preciso levar o reconhecimento de texto até o fim, não apenas reconhecimento de caracteres
- Avaliar modelos com CER não é uma boa ideia
- O reconhecimento de texto está repetindo os erros da tradução automática de 15 anos atrás
OCR4all é um software para recuperação e reconhecimento de texto digital de impressos do início da era moderna
- Tipos de impressão complexos e layouts não uniformes testam os limites de softwares comuns de reconhecimento de texto
- Parece ter sido construído com base no Calamari-OCR
O OCR4all atende claramente e de forma intuitiva às necessidades de usuários não técnicos
- Há instruções para abrir o terminal no Linux e digitar comandos
- Fica a dúvida de como isso ajuda usuários não técnicos
O Vision Framework da Apple oferece uma biblioteca de reconhecimento de texto mais rápida e mais precisa que o Tesseract
- Consegue lidar com quase todos os formatos de imagem
- Foi criada uma ferramenta CLI simples e um wrapper em Python
Combinar Tesseract com LLM para corrigir erros e melhorar a formatação é, no momento, o ponto ideal em velocidade/eficiência/precisão
- É possível editar o texto do prompt em inglês para priorizar aspectos específicos do documento de entrada
Foi desenvolvida uma API de OCR com suporte de IA
- Combina Tesseract e Poppler-utils para extrair segmentos de documentos de forma inteligente
- Pode ser expandida facilmente para vários modelos Vision LLM
- Exporta uma API completa de agente de IA como contêiner Dockerizado
Esse fluxo de trabalho é para digitalizar documentos impressos históricos
- Está relacionado à preservação de avisos antigos em tipografia blackletter
O OCR4all combina várias soluções open source para oferecer um fluxo de trabalho de reconhecimento automático de texto
- Parece ser baseado em OCR-D, que por sua vez se baseia em Tesseract, Kraken, DUP-ocropy e Calamari-OCR
- Parece ser uma alternativa open source ao Transkribus
- O eScriptorium também é outra alternativa
Há curiosidade se é um novo motor de OCR SOTA ou uma ferramenta que usa outros motores já conhecidos
- Seria bom se a landing page fosse mais clara
OCR parecia algo já resolvido em sua maior parte com o Tesseract, mas há busca por uma biblioteca ou implementação para compressão MRC no PDF resultante
- Produtos comerciais custam caro, e separar, comprimir e recombinar camadas de imagem é um problema difícil

OCR4all - OCR para todos

Leituras relacionadas

1 comentários

Comentários do Hacker News