33 pontos por GN⁺ 2025-07-17 | 1 comentários | Compartilhar no WhatsApp

> O futuro do RAG está em "melhor recuperação", e não em "janelas de contexto maiores"

  • A frase "RAG Is Dead" se aplica apenas às implementações simples de RAG no estilo de 2023; o problema real é a recuperação baseada em um único vetor, que causa grande perda de informação
  • As métricas tradicionais de avaliação de IR não são adequadas para RAG, e são necessários novos critérios de avaliação centrados em cobertura factual, diversidade e relevância
  • Os recuperadores de RAG estão evoluindo além do simples matching, passando a entender instruções e selecionar documentos relevantes com base em raciocínio
  • Modelos de late interaction no estilo ColBERT preservam representações no nível de token sem compressão de informação, permitindo que modelos pequenos superem modelos grandes
  • Em vez de buscar um embedding perfeito, múltiplos índices para diferentes representações e uma arquitetura de roteamento inteligente estão se tornando o novo padrão

Why the future of RAG lies in better retrieval, not bigger context windows

Contestando a afirmação de que “RAG morreu”

> Part 1. I don’t use RAG, I just retrieve documents - O que morreu foi a busca vetorial simples, não o próprio RAG

  • Hamel e Ben Clavié defendem que RAG não morreu e que, na verdade, chegou a hora de a arquitetura de recuperação evoluir
  • O modelo de colocar documentos em um banco vetorial e buscar por similaridade de cosseno está ultrapassado e sofre grande perda de informação
  • Como as informações dos LLMs ficam congeladas após o treinamento, a injeção de informação baseada em recuperação (RAG) continua sendo importante
  • Aumentar apenas a janela de contexto não é uma forma eficiente de inserir toda a informação

Métricas de avaliação inadequadas

> Part 2. Modern IR Evals For RAG - Explica por que as métricas tradicionais de avaliação de IR não servem para RAG e apresenta o FreshStack

  • Nandan Thakur aponta que as métricas tradicionais de avaliação de recuperação de informação (IR) não são adequadas para RAG
    • Benchmarks como o BEIR otimizam apenas a busca do documento nº 1
    • RAG precisa considerar em conjunto cobertura factual, diversidade de perspectivas e relevância contextual
    • Como novo sistema de avaliação para isso, é proposto o FreshStack

Recuperadores que raciocinam

> Part 3. Optimizing Retrieval with Reasoning Models - Projeto de recuperadores capazes de entender instruções e raciocinar

  • O sistema Rank1, de Orion Weller, permite que o recuperador entenda instruções complexas como "documentos que contêm metáforas sobre privacidade de dados"
  • Em vez de apenas calcular similaridade, ele gera um reasoning trace explícito para fornecer a base da decisão de relevância
  • Isso permite encontrar documentos que sistemas de busca tradicionais não conseguem localizar, com base em compreensão e raciocínio

O potencial dos modelos de late interaction

> Part 4. Late Interaction Models For RAG - Estruturas como ColBERT preservam representações sem perda de informação

  • Antoine Chaffin mostra, com modelos baseados em Late Interaction como o ColBERT, que
    • os documentos não são comprimidos em um único vetor, preservando informação no nível de token
    • como resultado, há casos em que um modelo de 150M parâmetros supera um modelo de 7B em desempenho de raciocínio
  • O ponto central é uma estrutura de representação que preserva a informação em vez de descartá-la

Não um único mapa, mas múltiplos mapas

> Part 5. RAG with Multiple Representations - Melhora do desempenho de busca com múltiplos índices por objetivo

  • Bryan Bischof e Ayush Chaurasia apontam que um único embedding não consegue atender a diferentes objetivos de recuperação
    • Ex.: ao buscar uma imagem
      • descrição textual
      • interpretação poética
      • imagens semelhantes
        podem ser buscadas em índices diferentes
  • Conclusão: em vez de procurar o embedding perfeito, são necessários múltiplos índices adaptados a diferentes formas de representação + um sistema de roteamento inteligente

A estratégia futura do RAG

Os quatro pontos a seguir são apresentados como o futuro do RAG:

  • Construção de novos critérios de avaliação adequados ao caso de uso
  • Recuperadores que entendem instruções e raciocinam
  • Estruturas que representam a informação sem comprimi-la
  • Combinação de índices para diferentes objetivos com roteamento inteligente

Annotated Notes From the Series

A série é composta por 5 partes e oferece um resumo com timestamps nos principais slides. Consulte os links de cada parte

Parte Título Descrição
Part 1 I don’t use RAG, I just retrieve documents O que morreu foi a busca vetorial simples, não o próprio RAG
Part 2 Modern IR Evals For RAG Explica por que as métricas tradicionais de IR não servem para RAG e apresenta o FreshStack
Part 3 Optimizing Retrieval with Reasoning Models Projeto de recuperadores capazes de entender instruções e raciocinar
Part 4 Late Interaction Models For RAG Estruturas como ColBERT preservam representações sem perda de informação
Part 5 RAG with Multiple Representations Melhora do desempenho de busca com múltiplos índices por objetivo

1 comentários

 
ide127 2025-07-18

"Não procure o embedding perfeito; em vez disso, use um sistema de múltiplos índices + roteamento inteligente adaptado a diferentes formas de representação"

Porque isso não é nada fácil...