- Tokenizador de alto desempenho 100% compatível com o TikToken da OpenAI, oferecendo mais de 2x de throughput e tokenização de código 4x mais rápida no processamento de grandes volumes de texto
- Motor de parsing de expressões regulares de alta velocidade baseado em PCRE2 para maximizar a velocidade de correspondência de padrões de tokens
- Algoritmo BPE simplificado para minimizar a queda de desempenho ao lidar com grandes volumes de tokens especiais
- Em benchmarks reais, a tokenização de código é mais de 4x mais rápida, e é possível substituir diretamente o código existente que usa TikToken
- Suporta Python 3.8+, pode ser instalado facilmente via PyPI com
pip install tokendagger e tem dependência de PCRE2
1 comentários
Comentários no Hacker News