LEAF: alcança 97% do desempenho de embeddings da OpenAI com 23M de parâmetros e roda só em CPU
(aisparkup.com)LEAF (Lightweight Embedding Alignment Framework) é um modelo de embeddings desenvolvido pela MongoDB Research que usa técnicas de destilação de conhecimento, oferecendo uma solução inovadora para os problemas de custo e velocidade em sistemas RAG (Retrieval-Augmented Generation). Enquanto modelos de embeddings de alto desempenho tradicionalmente exigem servidores com GPU, o LEAF permite operar apenas com CPU ao alcançar 97% do desempenho do text-embedding-3-large da OpenAI com um modelo compacto de 23M de parâmetros.
Contexto e problemas
- Em sistemas RAG, a indexação de documentos pode ser lenta, mas as respostas às consultas dos usuários precisam acontecer em poucas centenas de milissegundos.
- Ao usar modelos de alto desempenho, o custo com GPU pesa; ao migrar para modelos mais baratos, o desempenho cai — esse era o dilema.
- O LEAF resolve isso por meio da "compatibilidade entre modelos professor e aluno".
- Em vez de alinhar todas as camadas como nos métodos tradicionais de destilação, ele ajusta apenas a saída final (embeddings). Com isso, é possível indexar documentos com um grande modelo professor e processar consultas rapidamente em CPU com um pequeno modelo aluno, além de reutilizar o índice existente mesmo quando o modelo é trocado.
- O treinamento pode ser feito com uma única GPU A100, sem rotulagem de dados, o que aumenta a acessibilidade.
Modelos publicados e desempenho
A MongoDB disponibilizou dois modelos sob licença Apache 2.0:
- mdbr-leaf-ir: modelo otimizado para busca/RAG. Obteve 53,55 no benchmark BEIR (acima dos 51,08 do OpenAI small e 97% dos 55,43 do large).
- mdbr-leaf-mt: modelo de uso geral (classificação/clusterização). Obteve 63,97 no MTEB v2 (próximo dos 64,56 do OpenAI small), com o melhor desempenho entre modelos abaixo de 30M de parâmetros.
Esses modelos processam 120 consultas por segundo em uma CPU de 2 núcleos e usam apenas 87 MB de memória, o que permite operação offline em smartphones ou dispositivos IoT.
Conclusão e implicações
- O LEAF democratiza embeddings de alto desempenho ao reduzir a dependência de GPU e pode acelerar a adoção de RAG em startups ou ambientes de edge computing.
- A limitação é uma perda de 3% de desempenho em relação ao modelo original, mas em grande parte dos cenários práticos isso é desprezível.
- Os modelos e a receita de treinamento podem ser baixados no Hugging Face, e o fine-tuning com dados de domínio é simples.
1 comentários
O bge-m3 e os 300M do gemma já não são bons e pequenos?