LEAF: alcança 97% do desempenho de embeddings da OpenAI com 23M de parâmetros e roda só em CPU

(aisparkup.com)

19 pontos por davespark 2025-11-27 | 1 comentários | Compartilhar no WhatsApp

LEAF (Lightweight Embedding Alignment Framework) é um modelo de embeddings desenvolvido pela MongoDB Research que usa técnicas de destilação de conhecimento, oferecendo uma solução inovadora para os problemas de custo e velocidade em sistemas RAG (Retrieval-Augmented Generation). Enquanto modelos de embeddings de alto desempenho tradicionalmente exigem servidores com GPU, o LEAF permite operar apenas com CPU ao alcançar 97% do desempenho do text-embedding-3-large da OpenAI com um modelo compacto de 23M de parâmetros.

Contexto e problemas

Em sistemas RAG, a indexação de documentos pode ser lenta, mas as respostas às consultas dos usuários precisam acontecer em poucas centenas de milissegundos.
Ao usar modelos de alto desempenho, o custo com GPU pesa; ao migrar para modelos mais baratos, o desempenho cai — esse era o dilema.
O LEAF resolve isso por meio da "compatibilidade entre modelos professor e aluno".
Em vez de alinhar todas as camadas como nos métodos tradicionais de destilação, ele ajusta apenas a saída final (embeddings). Com isso, é possível indexar documentos com um grande modelo professor e processar consultas rapidamente em CPU com um pequeno modelo aluno, além de reutilizar o índice existente mesmo quando o modelo é trocado.
O treinamento pode ser feito com uma única GPU A100, sem rotulagem de dados, o que aumenta a acessibilidade.

Modelos publicados e desempenho

A MongoDB disponibilizou dois modelos sob licença Apache 2.0:

mdbr-leaf-ir: modelo otimizado para busca/RAG. Obteve 53,55 no benchmark BEIR (acima dos 51,08 do OpenAI small e 97% dos 55,43 do large).
mdbr-leaf-mt: modelo de uso geral (classificação/clusterização). Obteve 63,97 no MTEB v2 (próximo dos 64,56 do OpenAI small), com o melhor desempenho entre modelos abaixo de 30M de parâmetros.

Esses modelos processam 120 consultas por segundo em uma CPU de 2 núcleos e usam apenas 87 MB de memória, o que permite operação offline em smartphones ou dispositivos IoT.

Conclusão e implicações

O LEAF democratiza embeddings de alto desempenho ao reduzir a dependência de GPU e pode acelerar a adoção de RAG em startups ou ambientes de edge computing.
A limitação é uma perda de 3% de desempenho em relação ao modelo original, mas em grande parte dos cenários práticos isso é desprezível.
Os modelos e a receita de treinamento podem ser baixados no Hugging Face, e o fine-tuning com dados de domínio é simples.

1 comentários

kaydash 2025-11-28

O bge-m3 e os 300M do gemma já não são bons e pequenos?