Limitações do OCR (reconhecimento óptico de caracteres)
- Arquivos PDF contêm dados importantes, como pesquisas científicas e registros governamentais, mas seu formato é fixo, o que dificulta a leitura e a análise por máquinas
- Como o PDF é um formato criado para layouts de impressão, ele não é adequado para análise digital
- Muitos PDFs contêm imagens de informações, então é necessário um software de OCR para convertê-las em dados
- No caso de documentos antigos ou manuscritos, o desempenho do OCR cai ainda mais
Problema dos dados não estruturados
- Cerca de 80% a 90% dos dados das organizações no mundo estão armazenados como dados não estruturados, muitas vezes em PDFs
- A extração de dados é especialmente difícil em layouts de duas colunas, tabelas, gráficos e digitalizações de baixa qualidade
- Isso gera grandes problemas especialmente em pesquisas científicas, preservação de documentos históricos, atendimento ao cliente e garantia de acesso à documentação técnica em sistemas de IA
Impacto por setor
- Afeta a operação de instituições públicas, como registros governamentais, tribunais, polícia e serviços sociais
- Em setores dependentes de informação, como seguros e bancos, converter dados de PDFs consome tempo e recursos
História da tecnologia OCR
- Na década de 1970, Ray Kurzweil desenvolveu um sistema comercial de OCR baseado em algoritmos de correspondência de padrões
- O Kurzweil Reading Machine oferecia reconhecimento de texto para pessoas com deficiência visual
- Sistemas tradicionais de OCR funcionam reconhecendo padrões de contraste e convertendo-os em caracteres
- O desempenho cai em fontes complexas, layouts com múltiplas colunas, tabelas e casos semelhantes
- O OCR tradicional tem erros previsíveis, o que facilita a correção, mas ainda possui limitações
A ascensão do OCR baseado em IA
- LLMs multimodais (grandes modelos de linguagem) realizam extração de dados integrando imagens e texto
- Modelos da OpenAI, Google e Meta conseguem reconhecer ao mesmo tempo os elementos visuais do documento e o contexto do texto
- Enquanto o OCR tradicional usa correspondência de padrões em nível de caractere, a IA processa o documento entendendo layout e contexto
- O Textract da Amazon usa uma abordagem tradicional de OCR, enquanto os LLMs conseguem analisar documentos em um contexto mais amplo
- Eles lidam melhor com layouts complexos, tabelas, legendas e afins
Novas tentativas de OCR com base em LLM
- A empresa francesa de IA Mistral lançou o Mistral OCR, uma API de processamento de documentos baseada em LLM
- O objetivo é extrair texto e imagens de documentos com layouts complexos
- Surgiram problemas de desempenho: falhas no tratamento de tabelas em documentos antigos e erros numéricos
- Houve problemas no reconhecimento de escrita cursiva → a IA gerou conteúdo arbitrário (alucinação)
- O Gemini 2.0 do Google atualmente oferece o melhor desempenho → menos erros mesmo em documentos complexos
Problemas do OCR baseado em LLM
- Como os LLMs são modelos probabilísticos, a possibilidade de erro é alta
- Quando o layout do documento se repete, podem ocorrer omissões de linhas
- Os LLMs podem falhar em distinguir entre o prompt do usuário e o conteúdo do documento, levando a interpretações incorretas
- A associação incorreta de valores em tabelas pode causar erros críticos → um grande problema para os setores financeiro, jurídico e de saúde
- Há também o problema da geração arbitrária de texto → revisão humana é necessária
Desafios daqui para frente
- Ainda não existe uma solução de OCR perfeita
- Google, OpenAI e outras empresas estão melhorando o desempenho com produtos de IA sensíveis ao contexto
- Empresas de IA esperam obter dados de treinamento extraindo dados de PDFs
- Se a IA passar a processar perfeitamente os dados em PDFs, isso poderá abrir uma nova era na análise de dados
1 comentários
"O PDF não é adequado para análise digital porque é um formato criado para se ajustar ao layout de impressão."
Acho que o HWP tem um problema parecido. Ainda considero o HWP um excelente software, mas, por ser voltado basicamente para publicação, é difícil de analisar.
Por outro lado, o Word é uma bagunça quando se tenta usá-lo para produzir material final, mas justamente por isso permite focar mais no conteúdo e, assim, parece ter se adaptado melhor à era da web/IA.