8 pontos por GN⁺ 2025-10-12 | 1 comentários | Compartilhar no WhatsApp
  • O REFRAG, primeiro resultado de pesquisa da Meta Superintelligence (MSI), aprimora de forma significativa a arquitetura existente de RAG (Retrieval-Augmented Generation) e alcança uma velocidade de resposta 30 vezes maior com uma nova abordagem
  • O ponto central é converter trechos de documentos, não em tokens, mas no formato de “Chunk Embedding” que o LLM consegue compreender diretamente, além de introduzir uma rede de política que restaura apenas parte deles quando necessário
  • Com isso, há uma grande redução no cache KV e no custo de atenção, diminuindo o TTFT (time to first token) para melhorar a UX e, ao mesmo tempo, reduzir custos operacionais
  • O artigo foca não em inovação na arquitetura do modelo, mas em eficiência na camada de sistema e aplicação, sugerindo uma direção tecnológica capaz de gerar ROI imediato
  • Isso contorna os limites de desempenho e os problemas de custo dos modelos grandes, mostrando potencial para redefinir a viabilidade econômica de futuros produtos de IA

Contexto da divulgação do primeiro artigo da MSI

  • O laboratório Meta Superintelligence (MSI) chamou muita atenção por reunir talentos de ponta do setor e oferecer salários fora do padrão
  • Foi bastante incomum a MSI escolher, em seu primeiro artigo, um tema prático de RAG (retrieval-augmented generation)
  • O setor esperava que a MSI se concentrasse em melhorar o desempenho de modelos fundacionais ou desenvolver novas arquiteturas, então foi surpreendente vê-la optar por um tema prático e com efeito econômico imediato
  • RAG é um componente central de serviços comerciais como agentes de IA, busca, atendimento ao cliente e sumarização, e latência de resposta e custo afetam diretamente o modelo de negócio
  • O artigo propõe uma forma de reduzir em grande escala o custo e a latência de produtos de IA baseados em RAG, gerando ROI imediato

Estrutura técnica do REFRAG

  • 1. No método tradicional de RAG, documentos relacionados (chunks) são recuperados de um banco vetorial, e o LLM processa todos os chunks recebendo-os como tokens completos
  • 2. No REFRAG, o documento é dividido em chunks (cerca de 128 tokens) e cada um é convertido por um encoder leve em um único vetor de embedding, projetado no espaço de embedding do LLM
    • Esse embedding pode ser pré-calculado e armazenado em cache
  • 3. Quando o usuário faz uma consulta, os chunks relevantes são recuperados
      - a maior parte dos chunks é enviada ao LLM na forma de embedding, e
      - apenas uma pequena parte, escolhida pela rede de política (policy) baseada em RL, é expandida e enviada como sequência completa de tokens
  • 4. Essa rede de política é otimizada com objetivo de RL (aprendizado por reforço), selecionando os chunks que devem ser expandidos dentro de um orçamento limitado
    • Ela é treinada com uma função de recompensa que reduz a perplexity mantendo a qualidade da geração
  • 5. O LLM realiza a geração de texto combinando a sequência de tokens recebida (consulta + chunks expandidos) com vários placeholders de vetor único (chunks comprimidos)
  • Como resultado, o LLM consegue receber “consulta + parte dos tokens restaurados + vários vetores de embedding” e gerar a mesma saída com uma entrada menor
  • Com essa estrutura, uso de cache, volume de computação de atenção e tempo de resposta inicial caem de forma significativa

Significado técnico e principais insights

  • O ponto central do artigo é que a rede de política comprime de forma eficaz os chunks menos importantes dentro do processo de RAG e segue uma política de expandir apenas as partes relevantes
  • Um insight ainda mais importante é que, se os embeddings já são gerados nas camadas internas do LLM, não há necessidade de reconvertê-los em linguagem natural; eles podem ser passados diretamente como embeddings
  • Em outras palavras, ao processar os dados diretamente em um espaço de representação que o LLM já entende, elimina-se a compressão redundante e a velocidade aumenta drasticamente sem perda de precisão
  • Isso pode ser resumido como a ideia de que, em vez de otimizar tokens, é preciso mudar o próprio conceito de token

Importância na atual cadeia de valor da IA

  • Comparação entre dois vetores de inovação no campo de LLMs
    • Inovação no nível do modelo: novas arquiteturas, modelos maiores, novo pré-treinamento
      • alto risco, alto retorno, cronograma longo e grande necessidade de capital
    • Eficiência no nível de aplicação/sistema: otimização de inferência, técnicas de busca, orquestração
      • baixo risco, ROI imediato e monetização direta
  • O REFRAG segue a segunda direção e oferece ROI claro com maior throughput por GPU, redução de custos operacionais e melhoria de UX
  • Empresas e equipes de produto podem testar imediatamente, com a adoção prática do REFRAG, ganhos como maior throughput por GPU, menor custo de infraestrutura e reforço da UX
  • Esse método pode ser combinado de forma independente com retrievers e rerankers, o que permite aplicação flexível em pipelines RAG existentes
  • Em especial, com a concorrência cada vez maior no mercado de vector DBs, e movimentos do setor como rumores de venda da Pinecone, melhorar a eficiência de RAG é um tema de pesquisa bastante oportuno

Limitações esperadas

  • Complexidade de treinamento e engenharia
    • É necessário adicionar encoder + projeção e treinar o LLM para compreender embeddings (pré-treinamento de reconstrução + SFT)
    • A política seletiva é estável como problema de RL, mas adiciona complexidade ao desenvolvimento
  • Limites de compressão
    • Compressão agressiva inevitavelmente reduz a qualidade downstream
    • Existe um trade-off entre tamanho do embedding e frequência de expansão
  • Problema de atualização dos dados
    • Embeddings de chunks pré-calculados são adequados para corpora estáticos
    • Para dados que mudam com frequência, é necessário um pipeline de recálculo de embeddings ou dependência de uma estratégia híbrida
  • Considerações por caso de uso
    • Sumarização é aproximada, e tarefas em que precisão específica é crítica (raciocínio jurídico, citações exatas, fatos médicos sensíveis) exigem avaliação cuidadosa
    • Nesses casos, pode ser necessário um orçamento de compressão menor

Conclusão e implicações

  • A pergunta central do artigo: “Em vez de tentar otimizar o custo dos tokens, e se usássemos um tipo completamente diferente de token?”
  • O REFRAG propõe uma inovação prática que “redefine o conceito de tokens que o LLM lê”, aliviando os limites estruturais do RAG e mudando a estrutura de custo dos produtos de IA
  • Possibilidades de expansão futura
    • Se o LLM puder se tornar nativamente orientado a embeddings no lado da leitura, será que também pode se tornar orientado a embeddings no lado da escrita e acelerar agentes em 30x como um todo?
    • O custo por token dos modelos de embedding é quase zero — isso significa uma migração para outra arquitetura que reduz drasticamente o preço dos tokens? Quais são as desvantagens?
  • O REFRAG lembra que nem toda inovação vem de modelos maiores
    • Tornar o RAG mais barato e rápido em grande escala é uma alavanca direta para a economia de produto
    • O setor recompensará as equipes capazes de operacionalizar esse tipo de ganho

1 comentários

 
GN⁺ 2025-10-12
Opiniões no Hacker News
  • Explica-se que este artigo não tem relação com superinteligência; trata-se de um time que já pesquisava isso antes da reorganização e publicou o paper depois da mudança de nome. Muita gente esperava que a Meta deixasse de publicar artigos e passasse a agir como a OpenAI, mas a Meta continua lançando papers e divulgando modelos de pesos abertos em ritmo acelerado

    • Ressalta-se que o que a Meta divulga não é open source, e sim modelos com pesos abertos. Inclusive, esses pesos são publicados sob uma licença mais restritiva que a Apache 2

    • Ressalta-se que a MSL (esse time) não é formada apenas por algumas figuras conhecidas

  • Há confusão sobre o uso do termo RAG (Retrieval-Augmented Generation), já que ele aparece com vários significados em discussões. Para mim, RAG é um sistema que transforma trechos de um repositório de documentos predefinido em embeddings vetoriais e inclui no contexto apenas os trechos necessários. Ou então um recurso de interface de chat com LLM que faz busca na web por palavra-chave e insere temporariamente no contexto apenas documentos relevantes. Fico me perguntando o que acontece quando há suporte a janelas de contexto longas. Se colocarmos todas as informações no contexto de uma vez, preocupa a perda de diversidade; talvez isso ajude na consistência, mas no fim das contas, decidir o que manter e o que descartar ainda não seria uma forma de RAG? Gostaria de ouvir a explicação de um especialista

    • Tecnicamente, RAG é qualquer técnica que auxilia a geração com busca externa. Mas, em geral, o termo é usado de forma mais restrita para significar abordagens com banco de dados vetorial. Colocar todas as informações em uma janela de contexto enorme é impraticável. O processamento leva mais tempo e, quando há informação demais, o modelo tem mais dificuldade para encontrar o que precisa. No fim, quando se exige baixa latência ou há limitações de memória, o RAG “clássico” continua sendo útil

    • O ponto central é a adaptabilidade. A principal diferença entre RAG e não-RAG está em saber se a pergunta é conhecida no momento da criação do índice e se há capacidade de comparar entre si os documentos recuperados e decompor a pergunta. O não-RAG, com transformadores não causais multicamadas etc., vê pergunta e documentos ao mesmo tempo, sendo mais geral e mais fácil de otimizar com deep learning. Já o RAG é rápido e barato, mas, por usar ferramentas externas, é difícil de treinar de ponta a ponta, exigindo aprendizado por recompensa, como RL. No RAG, os documentos são independentes e a pergunta não é conhecida no momento da indexação. Também existem formas híbridas que combinam a saída do RAG com um sistema não-RAG. O não-RAG precisa de datasets de grande escala, mas, ao treinar com a web inteira, o desempenho continua melhorando. Melhorar desempenho em casos específicos é até mais fácil. O RAG tem vantagem em controle de entrada e dados estruturados, além de ajudar a evitar os piores casos, mas é mais difícil melhorar o melhor cenário

    • Não acho que seja possível colocar uma quantidade infinita de informação no contexto. Pela minha experiência, o GPT-5 já começa a se confundir depois de algumas páginas. Mesmo colocando tanta coisa, ele não consegue se lembrar

    • Não acho que exista alguém de fato dizendo que “RAG morreu”. É impossível colocar a internet inteira no contexto de um LLM, e, quanto mais se coloca, mais alto fica o custo

  • A Meta tinha talentos de altíssimo nível, mas parece não ter aproveitado todo o potencial deles. Na minha visão, se desse mais autonomia aos pesquisadores em vez de se fixar demais em métricas de desempenho, poderia estar mais à frente na corrida da IA. O novo time parece ser liderado por pessoas boas em sistematização e outras mais interessadas em dinheiro. Na verdade, essa tendência existe claramente em qualquer laboratório de pesquisa de big tech. Essas organizações evitam risco demais. Antes, o Vale do Silício era o que era porque os pesquisadores tinham liberdade. Eu, inclusive, e centenas de pesquisadores de ML trabalharíamos com prazer por salários bem menores se recebêssemos autonomia e recursos. A Meta também precisa usar de forma mais diversa o dinheiro que está investindo agora e revisitar os princípios que fizeram o Vale do Silício crescer

    • Na minha opinião, quanto mais concorrentes houver, mais o topo acaba sendo ocupado por gente que sabe explorar bem o sistema, em vez de pelos “verdadeiros craques”. Dá para ver essa tendência tanto em candidaturas para vagas no GAFAM quanto no caso do Tinder

    • Não parece que dar liberdade a pesquisadores em labs corporativos realmente ajude o negócio. Basta olhar para casos como Bell Labs ou Microsoft Research: fizeram muita pesquisa excelente, mas raramente isso se conectou ao negócio principal da empresa. O argumento é que a pesquisa em IA não gera receita ou competitividade concreta para a Meta, e sim crescimento do conhecimento coletivo. Do ponto de vista da empresa, esse modelo não encaixa tão bem. Além disso, se a pessoa virar pesquisadora, hoje até a academia vive ocupada com orientação de alunos e reuniões

    • Tenho dúvidas sobre a afirmação de que o avanço da IA desacelerou. Pergunto com base em quê isso está sendo avaliado. Para quem realmente acompanha a área, é difícil concordar com essa tese

    • Mesmo com a pressão na Meta, sempre me perguntei se matemáticos ganhando salários enormes realmente teriam tempo para pensar com liberdade

    • A escolha de Alex Wang foi interessante. Há muitos CEOs de laboratórios de IA excelentes; Wang tem seus méritos, mas, na prática, foi basicamente MTurk e timing de mercado. Não parece adequado como CEO para liderar AGI

  • Foi surpreendente que o tema do primeiro paper do novo laboratório tenha sido um RAG tão prático e realista. Em geral, imagino que um novo lab publique no início alguns papers sobre temas em que cada um já trabalhava e, só depois de acumular trabalho em equipe e sinergia suficientes, comece a produzir pesquisa realmente inovadora. Se der significado demais ao “primeiro paper” importante, isso pode acabar criando pressão logo na largada

    • Eu também não atribuo significado especial ao primeiro paper no meio acadêmico. A maioria dos primeiros papers é resultado de alunos de pós-graduação contribuindo para projetos já existentes do orientador. Na prática, a maior parte dos papers vem das mãos do professor. Mesmo no nível de laboratório, nunca ouvi dizer que o “primeiro paper” tenha um valor especial
  • Fico curioso se o paper vindo do time de superinteligência da Meta foi realmente planejado dentro desse time ou se foi um paper publicado depois que pessoas que já trabalhavam nisso migraram para a equipe. Suspeito que a primeira opção seja a mais provável

    • Segundo outra opinião, foi a segunda hipótese (um paper publicado após a reorganização) referência
  • Compartilha-se um vídeo no YouTube com explicação sobre o paper de RAG link do vídeo

  • Nos gráficos e tabelas do paper, não apareceu de imediato uma comparação com técnicas tradicionais, simples e estatísticas de compressão de contexto, como TF-IDF ou mera sobreposição de palavras. Na indústria, métodos simples assim são muito importantes quando entregam desempenho quase igual com redução de 10x no volume de informação

  • Já tive experiência pensando e implementando uma ideia parecida. Daqui para frente, será necessário um framework que simplifique isso, para que os LLMs consigam lidar com vários formatos de embedding com mais facilidade

  • Apresenta-se um link de projeto open-source relacionado a RAG REFRAG

  • O título da matéria é sensacionalista demais; gostaria de um título mais informativo e menos caça-cliques

    • Fico curioso sobre qual seria um título mais informativo e menos sensacionalista, aproveitando a linguagem principal da matéria