RAG não morreu

(hamel.dev)

33 pontos por GN⁺ 2025-07-17 | 1 comentários | Compartilhar no WhatsApp

O futuro do RAG está em "melhor recuperação", e não em "janelas de contexto maiores"

A frase "RAG Is Dead" se aplica apenas às implementações simples de RAG no estilo de 2023; o problema real é a recuperação baseada em um único vetor, que causa grande perda de informação
As métricas tradicionais de avaliação de IR não são adequadas para RAG, e são necessários novos critérios de avaliação centrados em cobertura factual, diversidade e relevância
Os recuperadores de RAG estão evoluindo além do simples matching, passando a entender instruções e selecionar documentos relevantes com base em raciocínio
Modelos de late interaction no estilo ColBERT preservam representações no nível de token sem compressão de informação, permitindo que modelos pequenos superem modelos grandes
Em vez de buscar um embedding perfeito, múltiplos índices para diferentes representações e uma arquitetura de roteamento inteligente estão se tornando o novo padrão

Why the future of RAG lies in better retrieval, not bigger context windows

Contestando a afirmação de que “RAG morreu”

Part 1. I don’t use RAG, I just retrieve documents - O que morreu foi a busca vetorial simples, não o próprio RAG

Hamel e Ben Clavié defendem que RAG não morreu e que, na verdade, chegou a hora de a arquitetura de recuperação evoluir
O modelo de colocar documentos em um banco vetorial e buscar por similaridade de cosseno está ultrapassado e sofre grande perda de informação
Como as informações dos LLMs ficam congeladas após o treinamento, a injeção de informação baseada em recuperação (RAG) continua sendo importante
Aumentar apenas a janela de contexto não é uma forma eficiente de inserir toda a informação

Métricas de avaliação inadequadas

Part 2. Modern IR Evals For RAG - Explica por que as métricas tradicionais de avaliação de IR não servem para RAG e apresenta o FreshStack

Nandan Thakur aponta que as métricas tradicionais de avaliação de recuperação de informação (IR) não são adequadas para RAG
- Benchmarks como o BEIR otimizam apenas a busca do documento nº 1
- RAG precisa considerar em conjunto cobertura factual, diversidade de perspectivas e relevância contextual
- Como novo sistema de avaliação para isso, é proposto o FreshStack

Recuperadores que raciocinam

Part 3. Optimizing Retrieval with Reasoning Models - Projeto de recuperadores capazes de entender instruções e raciocinar

O sistema Rank1, de Orion Weller, permite que o recuperador entenda instruções complexas como "documentos que contêm metáforas sobre privacidade de dados"
Em vez de apenas calcular similaridade, ele gera um reasoning trace explícito para fornecer a base da decisão de relevância
Isso permite encontrar documentos que sistemas de busca tradicionais não conseguem localizar, com base em compreensão e raciocínio

O potencial dos modelos de late interaction

Part 4. Late Interaction Models For RAG - Estruturas como ColBERT preservam representações sem perda de informação

Antoine Chaffin mostra, com modelos baseados em Late Interaction como o ColBERT, que
- os documentos não são comprimidos em um único vetor, preservando informação no nível de token
- como resultado, há casos em que um modelo de 150M parâmetros supera um modelo de 7B em desempenho de raciocínio
O ponto central é uma estrutura de representação que preserva a informação em vez de descartá-la

Não um único mapa, mas múltiplos mapas

Part 5. RAG with Multiple Representations - Melhora do desempenho de busca com múltiplos índices por objetivo

Bryan Bischof e Ayush Chaurasia apontam que um único embedding não consegue atender a diferentes objetivos de recuperação
- Ex.: ao buscar uma imagem
  - descrição textual
  - interpretação poética
  - imagens semelhantes
    podem ser buscadas em índices diferentes
Conclusão: em vez de procurar o embedding perfeito, são necessários múltiplos índices adaptados a diferentes formas de representação + um sistema de roteamento inteligente

A estratégia futura do RAG

Os quatro pontos a seguir são apresentados como o futuro do RAG:

Construção de novos critérios de avaliação adequados ao caso de uso
Recuperadores que entendem instruções e raciocinam
Estruturas que representam a informação sem comprimi-la
Combinação de índices para diferentes objetivos com roteamento inteligente

Annotated Notes From the Series

A série é composta por 5 partes e oferece um resumo com timestamps nos principais slides. Consulte os links de cada parte

Parte	Título	Descrição
Part 1	I don’t use RAG, I just retrieve documents	O que morreu foi a busca vetorial simples, não o próprio RAG
Part 2	Modern IR Evals For RAG	Explica por que as métricas tradicionais de IR não servem para RAG e apresenta o FreshStack
Part 3	Optimizing Retrieval with Reasoning Models	Projeto de recuperadores capazes de entender instruções e raciocinar
Part 4	Late Interaction Models For RAG	Estruturas como ColBERT preservam representações sem perda de informação
Part 5	RAG with Multiple Representations	Melhora do desempenho de busca com múltiplos índices por objetivo

1 comentários

ide127 2025-07-18

"Não procure o embedding perfeito; em vez disso, use um sistema de múltiplos índices + roteamento inteligente adaptado a diferentes formas de representação"

Porque isso não é nada fácil...