3 pontos por GN⁺ 2025-03-20 | 1 comentários | Compartilhar no WhatsApp

Limitações do OCR (reconhecimento óptico de caracteres)

  • Arquivos PDF contêm dados importantes, como pesquisas científicas e registros governamentais, mas seu formato é fixo, o que dificulta a leitura e a análise por máquinas
  • Como o PDF é um formato criado para layouts de impressão, ele não é adequado para análise digital
  • Muitos PDFs contêm imagens de informações, então é necessário um software de OCR para convertê-las em dados
  • No caso de documentos antigos ou manuscritos, o desempenho do OCR cai ainda mais

Problema dos dados não estruturados

  • Cerca de 80% a 90% dos dados das organizações no mundo estão armazenados como dados não estruturados, muitas vezes em PDFs
  • A extração de dados é especialmente difícil em layouts de duas colunas, tabelas, gráficos e digitalizações de baixa qualidade
  • Isso gera grandes problemas especialmente em pesquisas científicas, preservação de documentos históricos, atendimento ao cliente e garantia de acesso à documentação técnica em sistemas de IA

Impacto por setor

  • Afeta a operação de instituições públicas, como registros governamentais, tribunais, polícia e serviços sociais
  • Em setores dependentes de informação, como seguros e bancos, converter dados de PDFs consome tempo e recursos

História da tecnologia OCR

  • Na década de 1970, Ray Kurzweil desenvolveu um sistema comercial de OCR baseado em algoritmos de correspondência de padrões
  • O Kurzweil Reading Machine oferecia reconhecimento de texto para pessoas com deficiência visual
  • Sistemas tradicionais de OCR funcionam reconhecendo padrões de contraste e convertendo-os em caracteres
  • O desempenho cai em fontes complexas, layouts com múltiplas colunas, tabelas e casos semelhantes
  • O OCR tradicional tem erros previsíveis, o que facilita a correção, mas ainda possui limitações

A ascensão do OCR baseado em IA

  • LLMs multimodais (grandes modelos de linguagem) realizam extração de dados integrando imagens e texto
  • Modelos da OpenAI, Google e Meta conseguem reconhecer ao mesmo tempo os elementos visuais do documento e o contexto do texto
  • Enquanto o OCR tradicional usa correspondência de padrões em nível de caractere, a IA processa o documento entendendo layout e contexto
  • O Textract da Amazon usa uma abordagem tradicional de OCR, enquanto os LLMs conseguem analisar documentos em um contexto mais amplo
  • Eles lidam melhor com layouts complexos, tabelas, legendas e afins

Novas tentativas de OCR com base em LLM

  • A empresa francesa de IA Mistral lançou o Mistral OCR, uma API de processamento de documentos baseada em LLM
  • O objetivo é extrair texto e imagens de documentos com layouts complexos
  • Surgiram problemas de desempenho: falhas no tratamento de tabelas em documentos antigos e erros numéricos
  • Houve problemas no reconhecimento de escrita cursiva → a IA gerou conteúdo arbitrário (alucinação)
  • O Gemini 2.0 do Google atualmente oferece o melhor desempenho → menos erros mesmo em documentos complexos

Problemas do OCR baseado em LLM

  • Como os LLMs são modelos probabilísticos, a possibilidade de erro é alta
  • Quando o layout do documento se repete, podem ocorrer omissões de linhas
  • Os LLMs podem falhar em distinguir entre o prompt do usuário e o conteúdo do documento, levando a interpretações incorretas
  • A associação incorreta de valores em tabelas pode causar erros críticos → um grande problema para os setores financeiro, jurídico e de saúde
  • Há também o problema da geração arbitrária de texto → revisão humana é necessária

Desafios daqui para frente

  • Ainda não existe uma solução de OCR perfeita
  • Google, OpenAI e outras empresas estão melhorando o desempenho com produtos de IA sensíveis ao contexto
  • Empresas de IA esperam obter dados de treinamento extraindo dados de PDFs
  • Se a IA passar a processar perfeitamente os dados em PDFs, isso poderá abrir uma nova era na análise de dados

1 comentários

 
sixmen 2025-03-20

"O PDF não é adequado para análise digital porque é um formato criado para se ajustar ao layout de impressão."

Acho que o HWP tem um problema parecido. Ainda considero o HWP um excelente software, mas, por ser voltado basicamente para publicação, é difícil de analisar.

Por outro lado, o Word é uma bagunça quando se tenta usá-lo para produzir material final, mas justamente por isso permite focar mais no conteúdo e, assim, parece ter se adaptado melhor à era da web/IA.