RAG não morreu
(hamel.dev)> O futuro do RAG está em "melhor recuperação", e não em "janelas de contexto maiores"
- A frase "RAG Is Dead" se aplica apenas às implementações simples de RAG no estilo de 2023; o problema real é a recuperação baseada em um único vetor, que causa grande perda de informação
- As métricas tradicionais de avaliação de IR não são adequadas para RAG, e são necessários novos critérios de avaliação centrados em cobertura factual, diversidade e relevância
- Os recuperadores de RAG estão evoluindo além do simples matching, passando a entender instruções e selecionar documentos relevantes com base em raciocínio
- Modelos de late interaction no estilo ColBERT preservam representações no nível de token sem compressão de informação, permitindo que modelos pequenos superem modelos grandes
- Em vez de buscar um embedding perfeito, múltiplos índices para diferentes representações e uma arquitetura de roteamento inteligente estão se tornando o novo padrão
Why the future of RAG lies in better retrieval, not bigger context windows
Contestando a afirmação de que “RAG morreu”
> Part 1. I don’t use RAG, I just retrieve documents - O que morreu foi a busca vetorial simples, não o próprio RAG
- Hamel e Ben Clavié defendem que RAG não morreu e que, na verdade, chegou a hora de a arquitetura de recuperação evoluir
- O modelo de colocar documentos em um banco vetorial e buscar por similaridade de cosseno está ultrapassado e sofre grande perda de informação
- Como as informações dos LLMs ficam congeladas após o treinamento, a injeção de informação baseada em recuperação (RAG) continua sendo importante
- Aumentar apenas a janela de contexto não é uma forma eficiente de inserir toda a informação
Métricas de avaliação inadequadas
> Part 2. Modern IR Evals For RAG - Explica por que as métricas tradicionais de avaliação de IR não servem para RAG e apresenta o FreshStack
- Nandan Thakur aponta que as métricas tradicionais de avaliação de recuperação de informação (IR) não são adequadas para RAG
- Benchmarks como o BEIR otimizam apenas a busca do documento nº 1
- RAG precisa considerar em conjunto cobertura factual, diversidade de perspectivas e relevância contextual
- Como novo sistema de avaliação para isso, é proposto o FreshStack
Recuperadores que raciocinam
> Part 3. Optimizing Retrieval with Reasoning Models - Projeto de recuperadores capazes de entender instruções e raciocinar
- O sistema Rank1, de Orion Weller, permite que o recuperador entenda instruções complexas como "documentos que contêm metáforas sobre privacidade de dados"
- Em vez de apenas calcular similaridade, ele gera um reasoning trace explícito para fornecer a base da decisão de relevância
- Isso permite encontrar documentos que sistemas de busca tradicionais não conseguem localizar, com base em compreensão e raciocínio
O potencial dos modelos de late interaction
> Part 4. Late Interaction Models For RAG - Estruturas como ColBERT preservam representações sem perda de informação
- Antoine Chaffin mostra, com modelos baseados em Late Interaction como o ColBERT, que
- os documentos não são comprimidos em um único vetor, preservando informação no nível de token
- como resultado, há casos em que um modelo de 150M parâmetros supera um modelo de 7B em desempenho de raciocínio
- O ponto central é uma estrutura de representação que preserva a informação em vez de descartá-la
Não um único mapa, mas múltiplos mapas
> Part 5. RAG with Multiple Representations - Melhora do desempenho de busca com múltiplos índices por objetivo
- Bryan Bischof e Ayush Chaurasia apontam que um único embedding não consegue atender a diferentes objetivos de recuperação
- Ex.: ao buscar uma imagem
- descrição textual
- interpretação poética
- imagens semelhantes
podem ser buscadas em índices diferentes
- Ex.: ao buscar uma imagem
- Conclusão: em vez de procurar o embedding perfeito, são necessários múltiplos índices adaptados a diferentes formas de representação + um sistema de roteamento inteligente
A estratégia futura do RAG
Os quatro pontos a seguir são apresentados como o futuro do RAG:
- Construção de novos critérios de avaliação adequados ao caso de uso
- Recuperadores que entendem instruções e raciocinam
- Estruturas que representam a informação sem comprimi-la
- Combinação de índices para diferentes objetivos com roteamento inteligente
Annotated Notes From the Series
A série é composta por 5 partes e oferece um resumo com timestamps nos principais slides. Consulte os links de cada parte
| Parte | Título | Descrição |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | O que morreu foi a busca vetorial simples, não o próprio RAG |
| Part 2 | Modern IR Evals For RAG | Explica por que as métricas tradicionais de IR não servem para RAG e apresenta o FreshStack |
| Part 3 | Optimizing Retrieval with Reasoning Models | Projeto de recuperadores capazes de entender instruções e raciocinar |
| Part 4 | Late Interaction Models For RAG | Estruturas como ColBERT preservam representações sem perda de informação |
| Part 5 | RAG with Multiple Representations | Melhora do desempenho de busca com múltiplos índices por objetivo |
1 comentários
"Não procure o embedding perfeito; em vez disso, use um sistema de múltiplos índices + roteamento inteligente adaptado a diferentes formas de representação"
Porque isso não é nada fácil...