- O tamanho básico de instalação é de 21 MB, de 80 a 171 MB menor que bibliotecas alternativas
- O chunking por tokens é 33 vezes mais rápido do que em outras bibliotecas populares
- Suporta várias estratégias de chunking, como tokens, palavras, frases, semântico e SDPM
- Compatível com os principais tokenizadores, incluindo
transformers, tokenizers e tiktoken
- Sem dependências externas para as funcionalidades básicas
Otimizações técnicas
- Usa
tiktoken, que oferece suporte a multithreading, para tokenização mais rápida
- Implementa cache agressivo e pré-cálculo
- Usa Running Mean Pooling para chunking semântico eficiente
- Sistema modular de dependências que permite instalar apenas o necessário
Ainda não há comentários.