- O processo de converter PDFs em chunks de texto (
chunking) é um dos problemas mais trabalhosos na construção de sistemas RAG em grande escala - Existem soluções open source e comerciais, mas ainda é difícil obter resultados satisfatórios em termos de precisão, escalabilidade e eficiência de custo
- Exemplo: o nv-ingest da NVIDIA exige a configuração de vários serviços em um cluster Kubernetes e usa uma abordagem complexa que consome muitos recursos de GPU
- Alguns serviços comerciais também sofrem com baixa precisão em relação ao custo, ou ficam astronomicamente caros quando aplicados a documentos em larga escala
Chegada do Gemini Flash 2.0
- Já houve tentativas de usar modelos grandes (LLMs) para OCR e conversão de PDF, mas na prática a redução de custos era pequena e havia muitos erros imprevisíveis
- Exemplo: foram relatados casos em que o GPT-4o adicionava células desnecessárias em tabelas
- O Gemini Flash 2.0 é avaliado como significativamente melhor em precisão e eficiência de custo do que a versão 1.5 Flash
- Segundo testes internos, ele alcança uma precisão de OCR quase perfeita com custo muito baixo
- A experiência de desenvolvedor (Developer Experience) do Google é vista como um pouco inferior à da OpenAI, mas o preço razoável é uma grande vantagem
Comparação de custo e precisão
- Na conversão de PDFs para Markdown, o Gemini Flash 2.0 se destaca em custo por página processada
- 2.0 Flash: cerca de 6.000 páginas/$1
- 2.0 Flash Lite: cerca de 12.000 páginas/$1 (antes dos testes)
- 1.5 Flash: cerca de 10.000 páginas/$1
- AWS Textract: cerca de 1.000 páginas/$1
- OpenAI 4o-mini: cerca de 450 páginas/$1, entre outros
- Na precisão de extração de tabelas, o modelo próprio da Reducto foi o melhor, com 0,90, enquanto Gemini 2.0 Flash e Anthropic Sonnet ficaram em torno de 0,84
- Os casos em que o Gemini parecia errar eram, em sua maioria, problemas de formato estrutural; erros de reconhecimento dos números em si foram raros
- A extração de texto no geral funciona de forma quase perfeita
Segmentação de documentos (chunking) e uso de LLMs
- Para uso em pipelines de RAG, é necessário dividir o texto extraído em unidades semânticas
- Há pesquisas mostrando que LLMs grandes conseguem identificar os limites do texto de forma mais natural
- Até agora, porém, o custo era alto demais para aplicar isso a conjuntos de documentos realmente grandes
- Com o Gemini Flash 2.0, passa a ser possível aplicar segmentação baseada em LLMs de forma barata até em documentos em grande escala
- Exemplo: um corpus de PDFs com 100 milhões de páginas pode ser processado por cerca de $5.000
- Exemplo simples de prompt:
OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.Surround the chunks with <chunk> </chunk> html tags.
Problema dos Bounding Boxes
- É necessário preservar as informações de posição do texto no PDF (por exemplo,
bounding boxes) para oferecer ao usuário evidências precisas - Perder essas informações de posição ao converter para Markdown é uma grande desvantagem
- Alguns estudos mostraram exemplos de LLMs capazes de compreender relações espaciais em imagens e documentos, mas os modelos Gemini atuais ainda não conseguem fornecer
bounding boxesprecisos - O problema pode ser resolvido se o Google reforçar os dados de layout de documentos com treinamento adicional ou fine-tuning
Motivo e importância
- Uma solução barata e precisa para extração e segmentação de PDFs é um elemento central para simplificar pipelines de indexação de documentos em larga escala e aumentar a escalabilidade
- Se os problemas de parsing,
chunkingebounding boxesforem resolvidos, o processamento de documentos com base em LLMs deve ficar muito mais fácil - Bibliotecas open source mais maduras devem surgir em sequência no futuro, criando uma base que várias empresas e desenvolvedores poderão usar com facilidade
- Se alguém tiver informações sobre o programa de créditos para startups de IA do Google, o autor pede contato
Notas
- [1] Foi anexada uma imagem de exemplo comparando Reducto vs Gemini vs PDF original
- [2] Cálculo de custo do Gemini Flash 2.0: com base em custo de imagem de entrada de $0.00009675 e custo de saída de $0.0000525 por 400 tokens, estima-se aproximadamente 6.379 páginas/$1
2 comentários
Em termos de custo ou desempenho, o agent chunking parece ser bastante eficaz.
A concorrência no mercado para converter para um formato pronto para LLM está acirrada.