Como processar milhões de PDFs e por que o Gemini 2.0 muda tudo

(sergey.fyi)

29 pontos por GN⁺ 2025-02-06 | 2 comentários | Compartilhar no WhatsApp

O processo de converter PDFs em chunks de texto (chunking) é um dos problemas mais trabalhosos na construção de sistemas RAG em grande escala
Existem soluções open source e comerciais, mas ainda é difícil obter resultados satisfatórios em termos de precisão, escalabilidade e eficiência de custo
- Exemplo: o nv-ingest da NVIDIA exige a configuração de vários serviços em um cluster Kubernetes e usa uma abordagem complexa que consome muitos recursos de GPU
- Alguns serviços comerciais também sofrem com baixa precisão em relação ao custo, ou ficam astronomicamente caros quando aplicados a documentos em larga escala

Chegada do Gemini Flash 2.0

Já houve tentativas de usar modelos grandes (LLMs) para OCR e conversão de PDF, mas na prática a redução de custos era pequena e havia muitos erros imprevisíveis
- Exemplo: foram relatados casos em que o GPT-4o adicionava células desnecessárias em tabelas
O Gemini Flash 2.0 é avaliado como significativamente melhor em precisão e eficiência de custo do que a versão 1.5 Flash
- Segundo testes internos, ele alcança uma precisão de OCR quase perfeita com custo muito baixo
A experiência de desenvolvedor (Developer Experience) do Google é vista como um pouco inferior à da OpenAI, mas o preço razoável é uma grande vantagem

Na conversão de PDFs para Markdown, o Gemini Flash 2.0 se destaca em custo por página processada
- 2.0 Flash: cerca de 6.000 páginas/$1
- 2.0 Flash Lite: cerca de 12.000 páginas/$1 (antes dos testes)
- 1.5 Flash: cerca de 10.000 páginas/$1
- AWS Textract: cerca de 1.000 páginas/$1
- OpenAI 4o-mini: cerca de 450 páginas/$1, entre outros
Na precisão de extração de tabelas, o modelo próprio da Reducto foi o melhor, com 0,90, enquanto Gemini 2.0 Flash e Anthropic Sonnet ficaram em torno de 0,84
- Os casos em que o Gemini parecia errar eram, em sua maioria, problemas de formato estrutural; erros de reconhecimento dos números em si foram raros
A extração de texto no geral funciona de forma quase perfeita

Para uso em pipelines de RAG, é necessário dividir o texto extraído em unidades semânticas
Há pesquisas mostrando que LLMs grandes conseguem identificar os limites do texto de forma mais natural
Até agora, porém, o custo era alto demais para aplicar isso a conjuntos de documentos realmente grandes
Com o Gemini Flash 2.0, passa a ser possível aplicar segmentação baseada em LLMs de forma barata até em documentos em grande escala
- Exemplo: um corpus de PDFs com 100 milhões de páginas pode ser processado por cerca de $5.000
Exemplo simples de prompt:

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

É necessário preservar as informações de posição do texto no PDF (por exemplo, bounding boxes) para oferecer ao usuário evidências precisas
Perder essas informações de posição ao converter para Markdown é uma grande desvantagem
Alguns estudos mostraram exemplos de LLMs capazes de compreender relações espaciais em imagens e documentos, mas os modelos Gemini atuais ainda não conseguem fornecer bounding boxes precisos
O problema pode ser resolvido se o Google reforçar os dados de layout de documentos com treinamento adicional ou fine-tuning

Uma solução barata e precisa para extração e segmentação de PDFs é um elemento central para simplificar pipelines de indexação de documentos em larga escala e aumentar a escalabilidade
Se os problemas de parsing, chunking e bounding boxes forem resolvidos, o processamento de documentos com base em LLMs deve ficar muito mais fácil
Bibliotecas open source mais maduras devem surgir em sequência no futuro, criando uma base que várias empresas e desenvolvedores poderão usar com facilidade
Se alguém tiver informações sobre o programa de créditos para startups de IA do Google, o autor pede contato

[1] Foi anexada uma imagem de exemplo comparando Reducto vs Gemini vs PDF original
[2] Cálculo de custo do Gemini Flash 2.0: com base em custo de imagem de entrada de $0.00009675 e custo de saída de $0.0000525 por 400 tokens, estima-se aproximadamente 6.379 páginas/$1

jacde 2025-02-07

Em termos de custo ou desempenho, o agent chunking parece ser bastante eficaz.

ragingwind 2025-02-06

A concorrência no mercado para converter para um formato pronto para LLM está acirrada.