39 pontos por GN⁺ 2025-02-15 | 1 comentários | Compartilhar no WhatsApp
  • Totalmente gratuito e open source. Sem assinatura/recursos pagos/código oculto
  • Pode ser aplicado com flexibilidade, desde o processamento de alta qualidade de manuscritos desafiadores até o reconhecimento massivo de texto completo de materiais impressos
  • Suporte robusto para anotação de layout e texto
    • Usando o editor LAREX, é possível anotar manualmente, corrigir ou comparar elementos de layout e texto
  • Totalmente compatível com o ecossistema OCR-D
  • Design pensado para usabilidade: é possível criar fluxos de trabalho complexos de OCR pela UI sem usar código/CLI
  • Desenvolvimento multiplataforma fácil: pode ser executado com Docker e um único comando, independentemente do sistema operacional

1 comentários

 
GN⁺ 2025-02-15
Comentários do Hacker News
  • Pipelines complexos de segmentação eram necessários alguns anos atrás, mas agora geram muitos erros e tiram do modelo um contexto importante. Para avançar para manuscritos, contexto é necessário

    • Para decifrar manuscritos históricos, especialistas provavelmente dirão que é preciso o documento inteiro
    • É preciso levar o reconhecimento de texto até o fim, não apenas reconhecimento de caracteres
    • Avaliar modelos com CER não é uma boa ideia
    • O reconhecimento de texto está repetindo os erros da tradução automática de 15 anos atrás
  • OCR4all é um software para recuperação e reconhecimento de texto digital de impressos do início da era moderna

    • Tipos de impressão complexos e layouts não uniformes testam os limites de softwares comuns de reconhecimento de texto
    • Parece ter sido construído com base no Calamari-OCR
  • O OCR4all atende claramente e de forma intuitiva às necessidades de usuários não técnicos

    • Há instruções para abrir o terminal no Linux e digitar comandos
    • Fica a dúvida de como isso ajuda usuários não técnicos
  • O Vision Framework da Apple oferece uma biblioteca de reconhecimento de texto mais rápida e mais precisa que o Tesseract

    • Consegue lidar com quase todos os formatos de imagem
    • Foi criada uma ferramenta CLI simples e um wrapper em Python
  • Combinar Tesseract com LLM para corrigir erros e melhorar a formatação é, no momento, o ponto ideal em velocidade/eficiência/precisão

    • É possível editar o texto do prompt em inglês para priorizar aspectos específicos do documento de entrada
  • Foi desenvolvida uma API de OCR com suporte de IA

    • Combina Tesseract e Poppler-utils para extrair segmentos de documentos de forma inteligente
    • Pode ser expandida facilmente para vários modelos Vision LLM
    • Exporta uma API completa de agente de IA como contêiner Dockerizado
  • Esse fluxo de trabalho é para digitalizar documentos impressos históricos

    • Está relacionado à preservação de avisos antigos em tipografia blackletter
  • O OCR4all combina várias soluções open source para oferecer um fluxo de trabalho de reconhecimento automático de texto

    • Parece ser baseado em OCR-D, que por sua vez se baseia em Tesseract, Kraken, DUP-ocropy e Calamari-OCR
    • Parece ser uma alternativa open source ao Transkribus
    • O eScriptorium também é outra alternativa
  • Há curiosidade se é um novo motor de OCR SOTA ou uma ferramenta que usa outros motores já conhecidos

    • Seria bom se a landing page fosse mais clara
  • OCR parecia algo já resolvido em sua maior parte com o Tesseract, mas há busca por uma biblioteca ou implementação para compressão MRC no PDF resultante

    • Produtos comerciais custam caro, e separar, comprimir e recombinar camadas de imagem é um problema difícil