Por que ainda é difícil extrair dados de PDFs

(arstechnica.com)

3 pontos por GN⁺ 2025-03-20 | 1 comentários | Compartilhar no WhatsApp

Limitações do OCR (reconhecimento óptico de caracteres)

Arquivos PDF contêm dados importantes, como pesquisas científicas e registros governamentais, mas seu formato é fixo, o que dificulta a leitura e a análise por máquinas
Como o PDF é um formato criado para layouts de impressão, ele não é adequado para análise digital
Muitos PDFs contêm imagens de informações, então é necessário um software de OCR para convertê-las em dados
No caso de documentos antigos ou manuscritos, o desempenho do OCR cai ainda mais

Problema dos dados não estruturados

Cerca de 80% a 90% dos dados das organizações no mundo estão armazenados como dados não estruturados, muitas vezes em PDFs
A extração de dados é especialmente difícil em layouts de duas colunas, tabelas, gráficos e digitalizações de baixa qualidade
Isso gera grandes problemas especialmente em pesquisas científicas, preservação de documentos históricos, atendimento ao cliente e garantia de acesso à documentação técnica em sistemas de IA

Impacto por setor

Afeta a operação de instituições públicas, como registros governamentais, tribunais, polícia e serviços sociais
Em setores dependentes de informação, como seguros e bancos, converter dados de PDFs consome tempo e recursos

História da tecnologia OCR

Na década de 1970, Ray Kurzweil desenvolveu um sistema comercial de OCR baseado em algoritmos de correspondência de padrões
O Kurzweil Reading Machine oferecia reconhecimento de texto para pessoas com deficiência visual
Sistemas tradicionais de OCR funcionam reconhecendo padrões de contraste e convertendo-os em caracteres
O desempenho cai em fontes complexas, layouts com múltiplas colunas, tabelas e casos semelhantes
O OCR tradicional tem erros previsíveis, o que facilita a correção, mas ainda possui limitações

A ascensão do OCR baseado em IA

LLMs multimodais (grandes modelos de linguagem) realizam extração de dados integrando imagens e texto
Modelos da OpenAI, Google e Meta conseguem reconhecer ao mesmo tempo os elementos visuais do documento e o contexto do texto
Enquanto o OCR tradicional usa correspondência de padrões em nível de caractere, a IA processa o documento entendendo layout e contexto
O Textract da Amazon usa uma abordagem tradicional de OCR, enquanto os LLMs conseguem analisar documentos em um contexto mais amplo
Eles lidam melhor com layouts complexos, tabelas, legendas e afins

Novas tentativas de OCR com base em LLM

A empresa francesa de IA Mistral lançou o Mistral OCR, uma API de processamento de documentos baseada em LLM
O objetivo é extrair texto e imagens de documentos com layouts complexos
Surgiram problemas de desempenho: falhas no tratamento de tabelas em documentos antigos e erros numéricos
Houve problemas no reconhecimento de escrita cursiva → a IA gerou conteúdo arbitrário (alucinação)
O Gemini 2.0 do Google atualmente oferece o melhor desempenho → menos erros mesmo em documentos complexos

Problemas do OCR baseado em LLM

Como os LLMs são modelos probabilísticos, a possibilidade de erro é alta
Quando o layout do documento se repete, podem ocorrer omissões de linhas
Os LLMs podem falhar em distinguir entre o prompt do usuário e o conteúdo do documento, levando a interpretações incorretas
A associação incorreta de valores em tabelas pode causar erros críticos → um grande problema para os setores financeiro, jurídico e de saúde
Há também o problema da geração arbitrária de texto → revisão humana é necessária

Desafios daqui para frente

Ainda não existe uma solução de OCR perfeita
Google, OpenAI e outras empresas estão melhorando o desempenho com produtos de IA sensíveis ao contexto
Empresas de IA esperam obter dados de treinamento extraindo dados de PDFs
Se a IA passar a processar perfeitamente os dados em PDFs, isso poderá abrir uma nova era na análise de dados

1 comentários

sixmen 2025-03-20

"O PDF não é adequado para análise digital porque é um formato criado para se ajustar ao layout de impressão."

Acho que o HWP tem um problema parecido. Ainda considero o HWP um excelente software, mas, por ser voltado basicamente para publicação, é difícil de analisar.

Por outro lado, o Word é uma bagunça quando se tenta usá-lo para produzir material final, mas justamente por isso permite focar mais no conteúdo e, assim, parece ter se adaptado melhor à era da web/IA.