15 pontos por xguru 2024-11-12 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O tamanho básico de instalação é de 21 MB, de 80 a 171 MB menor que bibliotecas alternativas
  • O chunking por tokens é 33 vezes mais rápido do que em outras bibliotecas populares
  • Suporta várias estratégias de chunking, como tokens, palavras, frases, semântico e SDPM
  • Compatível com os principais tokenizadores, incluindo transformers, tokenizers e tiktoken
  • Sem dependências externas para as funcionalidades básicas

Otimizações técnicas

  • Usa tiktoken, que oferece suporte a multithreading, para tokenização mais rápida
  • Implementa cache agressivo e pré-cálculo
  • Usa Running Mean Pooling para chunking semântico eficiente
  • Sistema modular de dependências que permite instalar apenas o necessário

Ainda não há comentários.

Ainda não há comentários.