29 pontos por GN⁺ 2025-02-06 | 2 comentários | Compartilhar no WhatsApp
  • O processo de converter PDFs em chunks de texto (chunking) é um dos problemas mais trabalhosos na construção de sistemas RAG em grande escala
  • Existem soluções open source e comerciais, mas ainda é difícil obter resultados satisfatórios em termos de precisão, escalabilidade e eficiência de custo
    • Exemplo: o nv-ingest da NVIDIA exige a configuração de vários serviços em um cluster Kubernetes e usa uma abordagem complexa que consome muitos recursos de GPU
    • Alguns serviços comerciais também sofrem com baixa precisão em relação ao custo, ou ficam astronomicamente caros quando aplicados a documentos em larga escala

Chegada do Gemini Flash 2.0

  • Já houve tentativas de usar modelos grandes (LLMs) para OCR e conversão de PDF, mas na prática a redução de custos era pequena e havia muitos erros imprevisíveis
    • Exemplo: foram relatados casos em que o GPT-4o adicionava células desnecessárias em tabelas
  • O Gemini Flash 2.0 é avaliado como significativamente melhor em precisão e eficiência de custo do que a versão 1.5 Flash
    • Segundo testes internos, ele alcança uma precisão de OCR quase perfeita com custo muito baixo
  • A experiência de desenvolvedor (Developer Experience) do Google é vista como um pouco inferior à da OpenAI, mas o preço razoável é uma grande vantagem

Comparação de custo e precisão

  • Na conversão de PDFs para Markdown, o Gemini Flash 2.0 se destaca em custo por página processada
    • 2.0 Flash: cerca de 6.000 páginas/$1
    • 2.0 Flash Lite: cerca de 12.000 páginas/$1 (antes dos testes)
    • 1.5 Flash: cerca de 10.000 páginas/$1
    • AWS Textract: cerca de 1.000 páginas/$1
    • OpenAI 4o-mini: cerca de 450 páginas/$1, entre outros
  • Na precisão de extração de tabelas, o modelo próprio da Reducto foi o melhor, com 0,90, enquanto Gemini 2.0 Flash e Anthropic Sonnet ficaram em torno de 0,84
    • Os casos em que o Gemini parecia errar eram, em sua maioria, problemas de formato estrutural; erros de reconhecimento dos números em si foram raros
  • A extração de texto no geral funciona de forma quase perfeita

Segmentação de documentos (chunking) e uso de LLMs

  • Para uso em pipelines de RAG, é necessário dividir o texto extraído em unidades semânticas
  • Há pesquisas mostrando que LLMs grandes conseguem identificar os limites do texto de forma mais natural
  • Até agora, porém, o custo era alto demais para aplicar isso a conjuntos de documentos realmente grandes
  • Com o Gemini Flash 2.0, passa a ser possível aplicar segmentação baseada em LLMs de forma barata até em documentos em grande escala
    • Exemplo: um corpus de PDFs com 100 milhões de páginas pode ser processado por cerca de $5.000
  • Exemplo simples de prompt:

    OCR the following page into Markdown. Tables should be formatted as HTML.
    Do not sorround your output with triple backticks.

    Chunk the document into sections of roughly 250 - 1000 words. Our goal is
    to identify parts of the page with same semantic theme. These chunks will
    be embedded and used in a RAG pipeline.

    Surround the chunks with <chunk> </chunk> html tags.

Problema dos Bounding Boxes

  • É necessário preservar as informações de posição do texto no PDF (por exemplo, bounding boxes) para oferecer ao usuário evidências precisas
  • Perder essas informações de posição ao converter para Markdown é uma grande desvantagem
  • Alguns estudos mostraram exemplos de LLMs capazes de compreender relações espaciais em imagens e documentos, mas os modelos Gemini atuais ainda não conseguem fornecer bounding boxes precisos
  • O problema pode ser resolvido se o Google reforçar os dados de layout de documentos com treinamento adicional ou fine-tuning

Motivo e importância

  • Uma solução barata e precisa para extração e segmentação de PDFs é um elemento central para simplificar pipelines de indexação de documentos em larga escala e aumentar a escalabilidade
  • Se os problemas de parsing, chunking e bounding boxes forem resolvidos, o processamento de documentos com base em LLMs deve ficar muito mais fácil
  • Bibliotecas open source mais maduras devem surgir em sequência no futuro, criando uma base que várias empresas e desenvolvedores poderão usar com facilidade
  • Se alguém tiver informações sobre o programa de créditos para startups de IA do Google, o autor pede contato

Notas

  • [1] Foi anexada uma imagem de exemplo comparando Reducto vs Gemini vs PDF original
  • [2] Cálculo de custo do Gemini Flash 2.0: com base em custo de imagem de entrada de $0.00009675 e custo de saída de $0.0000525 por 400 tokens, estima-se aproximadamente 6.379 páginas/$1

2 comentários

 
jacde 2025-02-07

Em termos de custo ou desempenho, o agent chunking parece ser bastante eficaz.

 
ragingwind 2025-02-06

A concorrência no mercado para converter para um formato pronto para LLM está acirrada.