- O REFRAG, primeiro resultado de pesquisa da Meta Superintelligence (MSI), aprimora de forma significativa a arquitetura existente de RAG (Retrieval-Augmented Generation) e alcança uma velocidade de resposta 30 vezes maior com uma nova abordagem
- O ponto central é converter trechos de documentos, não em tokens, mas no formato de “Chunk Embedding” que o LLM consegue compreender diretamente, além de introduzir uma rede de política que restaura apenas parte deles quando necessário
- Com isso, há uma grande redução no cache KV e no custo de atenção, diminuindo o TTFT (time to first token) para melhorar a UX e, ao mesmo tempo, reduzir custos operacionais
- O artigo foca não em inovação na arquitetura do modelo, mas em eficiência na camada de sistema e aplicação, sugerindo uma direção tecnológica capaz de gerar ROI imediato
- Isso contorna os limites de desempenho e os problemas de custo dos modelos grandes, mostrando potencial para redefinir a viabilidade econômica de futuros produtos de IA
Contexto da divulgação do primeiro artigo da MSI
- O laboratório Meta Superintelligence (MSI) chamou muita atenção por reunir talentos de ponta do setor e oferecer salários fora do padrão
- Foi bastante incomum a MSI escolher, em seu primeiro artigo, um tema prático de RAG (retrieval-augmented generation)
- O setor esperava que a MSI se concentrasse em melhorar o desempenho de modelos fundacionais ou desenvolver novas arquiteturas, então foi surpreendente vê-la optar por um tema prático e com efeito econômico imediato
- RAG é um componente central de serviços comerciais como agentes de IA, busca, atendimento ao cliente e sumarização, e latência de resposta e custo afetam diretamente o modelo de negócio
- O artigo propõe uma forma de reduzir em grande escala o custo e a latência de produtos de IA baseados em RAG, gerando ROI imediato
Estrutura técnica do REFRAG
- 1. No método tradicional de RAG, documentos relacionados (chunks) são recuperados de um banco vetorial, e o LLM processa todos os chunks recebendo-os como tokens completos
- 2. No REFRAG, o documento é dividido em chunks (cerca de 128 tokens) e cada um é convertido por um encoder leve em um único vetor de embedding, projetado no espaço de embedding do LLM
- Esse embedding pode ser pré-calculado e armazenado em cache
- 3. Quando o usuário faz uma consulta, os chunks relevantes são recuperados
- a maior parte dos chunks é enviada ao LLM na forma de embedding, e
- apenas uma pequena parte, escolhida pela rede de política (policy) baseada em RL, é expandida e enviada como sequência completa de tokens
- 4. Essa rede de política é otimizada com objetivo de RL (aprendizado por reforço), selecionando os chunks que devem ser expandidos dentro de um orçamento limitado
- Ela é treinada com uma função de recompensa que reduz a perplexity mantendo a qualidade da geração
- 5. O LLM realiza a geração de texto combinando a sequência de tokens recebida (consulta + chunks expandidos) com vários placeholders de vetor único (chunks comprimidos)
- Como resultado, o LLM consegue receber “consulta + parte dos tokens restaurados + vários vetores de embedding” e gerar a mesma saída com uma entrada menor
- Com essa estrutura, uso de cache, volume de computação de atenção e tempo de resposta inicial caem de forma significativa
Significado técnico e principais insights
- O ponto central do artigo é que a rede de política comprime de forma eficaz os chunks menos importantes dentro do processo de RAG e segue uma política de expandir apenas as partes relevantes
- Um insight ainda mais importante é que, se os embeddings já são gerados nas camadas internas do LLM, não há necessidade de reconvertê-los em linguagem natural; eles podem ser passados diretamente como embeddings
- Em outras palavras, ao processar os dados diretamente em um espaço de representação que o LLM já entende, elimina-se a compressão redundante e a velocidade aumenta drasticamente sem perda de precisão
- Isso pode ser resumido como a ideia de que, em vez de otimizar tokens, é preciso mudar o próprio conceito de token
Importância na atual cadeia de valor da IA
- Comparação entre dois vetores de inovação no campo de LLMs
- Inovação no nível do modelo: novas arquiteturas, modelos maiores, novo pré-treinamento
- alto risco, alto retorno, cronograma longo e grande necessidade de capital
- Eficiência no nível de aplicação/sistema: otimização de inferência, técnicas de busca, orquestração
- baixo risco, ROI imediato e monetização direta
- O REFRAG segue a segunda direção e oferece ROI claro com maior throughput por GPU, redução de custos operacionais e melhoria de UX
- Empresas e equipes de produto podem testar imediatamente, com a adoção prática do REFRAG, ganhos como maior throughput por GPU, menor custo de infraestrutura e reforço da UX
- Esse método pode ser combinado de forma independente com retrievers e rerankers, o que permite aplicação flexível em pipelines RAG existentes
- Em especial, com a concorrência cada vez maior no mercado de vector DBs, e movimentos do setor como rumores de venda da Pinecone, melhorar a eficiência de RAG é um tema de pesquisa bastante oportuno
Limitações esperadas
- Complexidade de treinamento e engenharia
- É necessário adicionar encoder + projeção e treinar o LLM para compreender embeddings (pré-treinamento de reconstrução + SFT)
- A política seletiva é estável como problema de RL, mas adiciona complexidade ao desenvolvimento
- Limites de compressão
- Compressão agressiva inevitavelmente reduz a qualidade downstream
- Existe um trade-off entre tamanho do embedding e frequência de expansão
- Problema de atualização dos dados
- Embeddings de chunks pré-calculados são adequados para corpora estáticos
- Para dados que mudam com frequência, é necessário um pipeline de recálculo de embeddings ou dependência de uma estratégia híbrida
- Considerações por caso de uso
- Sumarização é aproximada, e tarefas em que precisão específica é crítica (raciocínio jurídico, citações exatas, fatos médicos sensíveis) exigem avaliação cuidadosa
- Nesses casos, pode ser necessário um orçamento de compressão menor
Conclusão e implicações
- A pergunta central do artigo: “Em vez de tentar otimizar o custo dos tokens, e se usássemos um tipo completamente diferente de token?”
- O REFRAG propõe uma inovação prática que “redefine o conceito de tokens que o LLM lê”, aliviando os limites estruturais do RAG e mudando a estrutura de custo dos produtos de IA
- Possibilidades de expansão futura
- Se o LLM puder se tornar nativamente orientado a embeddings no lado da leitura, será que também pode se tornar orientado a embeddings no lado da escrita e acelerar agentes em 30x como um todo?
- O custo por token dos modelos de embedding é quase zero — isso significa uma migração para outra arquitetura que reduz drasticamente o preço dos tokens? Quais são as desvantagens?
- O REFRAG lembra que nem toda inovação vem de modelos maiores
- Tornar o RAG mais barato e rápido em grande escala é uma alavanca direta para a economia de produto
- O setor recompensará as equipes capazes de operacionalizar esse tipo de ganho
1 comentários
Opiniões no Hacker News
Explica-se que este artigo não tem relação com superinteligência; trata-se de um time que já pesquisava isso antes da reorganização e publicou o paper depois da mudança de nome. Muita gente esperava que a Meta deixasse de publicar artigos e passasse a agir como a OpenAI, mas a Meta continua lançando papers e divulgando modelos de pesos abertos em ritmo acelerado
Ressalta-se que o que a Meta divulga não é open source, e sim modelos com pesos abertos. Inclusive, esses pesos são publicados sob uma licença mais restritiva que a Apache 2
Ressalta-se que a MSL (esse time) não é formada apenas por algumas figuras conhecidas
Há confusão sobre o uso do termo RAG (Retrieval-Augmented Generation), já que ele aparece com vários significados em discussões. Para mim, RAG é um sistema que transforma trechos de um repositório de documentos predefinido em embeddings vetoriais e inclui no contexto apenas os trechos necessários. Ou então um recurso de interface de chat com LLM que faz busca na web por palavra-chave e insere temporariamente no contexto apenas documentos relevantes. Fico me perguntando o que acontece quando há suporte a janelas de contexto longas. Se colocarmos todas as informações no contexto de uma vez, preocupa a perda de diversidade; talvez isso ajude na consistência, mas no fim das contas, decidir o que manter e o que descartar ainda não seria uma forma de RAG? Gostaria de ouvir a explicação de um especialista
Tecnicamente, RAG é qualquer técnica que auxilia a geração com busca externa. Mas, em geral, o termo é usado de forma mais restrita para significar abordagens com banco de dados vetorial. Colocar todas as informações em uma janela de contexto enorme é impraticável. O processamento leva mais tempo e, quando há informação demais, o modelo tem mais dificuldade para encontrar o que precisa. No fim, quando se exige baixa latência ou há limitações de memória, o RAG “clássico” continua sendo útil
O ponto central é a adaptabilidade. A principal diferença entre RAG e não-RAG está em saber se a pergunta é conhecida no momento da criação do índice e se há capacidade de comparar entre si os documentos recuperados e decompor a pergunta. O não-RAG, com transformadores não causais multicamadas etc., vê pergunta e documentos ao mesmo tempo, sendo mais geral e mais fácil de otimizar com deep learning. Já o RAG é rápido e barato, mas, por usar ferramentas externas, é difícil de treinar de ponta a ponta, exigindo aprendizado por recompensa, como RL. No RAG, os documentos são independentes e a pergunta não é conhecida no momento da indexação. Também existem formas híbridas que combinam a saída do RAG com um sistema não-RAG. O não-RAG precisa de datasets de grande escala, mas, ao treinar com a web inteira, o desempenho continua melhorando. Melhorar desempenho em casos específicos é até mais fácil. O RAG tem vantagem em controle de entrada e dados estruturados, além de ajudar a evitar os piores casos, mas é mais difícil melhorar o melhor cenário
Não acho que seja possível colocar uma quantidade infinita de informação no contexto. Pela minha experiência, o GPT-5 já começa a se confundir depois de algumas páginas. Mesmo colocando tanta coisa, ele não consegue se lembrar
Não acho que exista alguém de fato dizendo que “RAG morreu”. É impossível colocar a internet inteira no contexto de um LLM, e, quanto mais se coloca, mais alto fica o custo
A Meta tinha talentos de altíssimo nível, mas parece não ter aproveitado todo o potencial deles. Na minha visão, se desse mais autonomia aos pesquisadores em vez de se fixar demais em métricas de desempenho, poderia estar mais à frente na corrida da IA. O novo time parece ser liderado por pessoas boas em sistematização e outras mais interessadas em dinheiro. Na verdade, essa tendência existe claramente em qualquer laboratório de pesquisa de big tech. Essas organizações evitam risco demais. Antes, o Vale do Silício era o que era porque os pesquisadores tinham liberdade. Eu, inclusive, e centenas de pesquisadores de ML trabalharíamos com prazer por salários bem menores se recebêssemos autonomia e recursos. A Meta também precisa usar de forma mais diversa o dinheiro que está investindo agora e revisitar os princípios que fizeram o Vale do Silício crescer
Na minha opinião, quanto mais concorrentes houver, mais o topo acaba sendo ocupado por gente que sabe explorar bem o sistema, em vez de pelos “verdadeiros craques”. Dá para ver essa tendência tanto em candidaturas para vagas no GAFAM quanto no caso do Tinder
Não parece que dar liberdade a pesquisadores em labs corporativos realmente ajude o negócio. Basta olhar para casos como Bell Labs ou Microsoft Research: fizeram muita pesquisa excelente, mas raramente isso se conectou ao negócio principal da empresa. O argumento é que a pesquisa em IA não gera receita ou competitividade concreta para a Meta, e sim crescimento do conhecimento coletivo. Do ponto de vista da empresa, esse modelo não encaixa tão bem. Além disso, se a pessoa virar pesquisadora, hoje até a academia vive ocupada com orientação de alunos e reuniões
Tenho dúvidas sobre a afirmação de que o avanço da IA desacelerou. Pergunto com base em quê isso está sendo avaliado. Para quem realmente acompanha a área, é difícil concordar com essa tese
Mesmo com a pressão na Meta, sempre me perguntei se matemáticos ganhando salários enormes realmente teriam tempo para pensar com liberdade
A escolha de Alex Wang foi interessante. Há muitos CEOs de laboratórios de IA excelentes; Wang tem seus méritos, mas, na prática, foi basicamente MTurk e timing de mercado. Não parece adequado como CEO para liderar AGI
Foi surpreendente que o tema do primeiro paper do novo laboratório tenha sido um RAG tão prático e realista. Em geral, imagino que um novo lab publique no início alguns papers sobre temas em que cada um já trabalhava e, só depois de acumular trabalho em equipe e sinergia suficientes, comece a produzir pesquisa realmente inovadora. Se der significado demais ao “primeiro paper” importante, isso pode acabar criando pressão logo na largada
Fico curioso se o paper vindo do time de superinteligência da Meta foi realmente planejado dentro desse time ou se foi um paper publicado depois que pessoas que já trabalhavam nisso migraram para a equipe. Suspeito que a primeira opção seja a mais provável
Compartilha-se um vídeo no YouTube com explicação sobre o paper de RAG link do vídeo
Nos gráficos e tabelas do paper, não apareceu de imediato uma comparação com técnicas tradicionais, simples e estatísticas de compressão de contexto, como TF-IDF ou mera sobreposição de palavras. Na indústria, métodos simples assim são muito importantes quando entregam desempenho quase igual com redução de 10x no volume de informação
Já tive experiência pensando e implementando uma ideia parecida. Daqui para frente, será necessário um framework que simplifique isso, para que os LLMs consigam lidar com vários formatos de embedding com mais facilidade
Apresenta-se um link de projeto open-source relacionado a RAG REFRAG
O título da matéria é sensacionalista demais; gostaria de um título mais informativo e menos caça-cliques