minbpe - Implementação de Byte Pair Encoding usada na tokenização de LLMs

xguru · 2024-02-21T11:06:01+09:00

Novo código lançado por Andrej Karpathy após sua saída da OpenAI Código minimalista/limpo para o algoritmo de Byte Pair Encoding (BPE) em nível de byte, geralmente usado na tokenização de LLMs Em nível de byte: porque opera sobre strings codificadas em UTF-8 O BPE foi popularizado em LLMs pelo artigo do GPT-2 e pelo lançamento do código relacionado ao GPT-2 pela OpenAI Hoje, todos os LLMs modernos (por exemplo: GPT, Llama, Mistral) usam esse algoritmo para treinar o tokenizer O repositório inclui 2 tokenizers. Ambos executam 3 operações principais treinamento do vocabulário e das fusões do tokenizer sobre um texto fornecido codificação de texto em tokens decodificação de tokens em texto A classe base Tokenizer, a implementação mais simples BasicTokenizer e o RegexTokenizer, que divide a string de entrada com expressões regulares GPT4Tokenizer, um wrapper de RegexTokenizer, reproduz exatamente a tokenização do GPT-4 na biblioteca tiktoken

(github.com/karpathy)

13 pontos por xguru 2024-02-21 | 1 comentários | Compartilhar no WhatsApp

Novo código lançado por Andrej Karpathy após sua saída da OpenAI
Código minimalista/limpo para o algoritmo de Byte Pair Encoding (BPE) em nível de byte, geralmente usado na tokenização de LLMs
- Em nível de byte: porque opera sobre strings codificadas em UTF-8
O BPE foi popularizado em LLMs pelo artigo do GPT-2 e pelo lançamento do código relacionado ao GPT-2 pela OpenAI
Hoje, todos os LLMs modernos (por exemplo: GPT, Llama, Mistral) usam esse algoritmo para treinar o tokenizer
O repositório inclui 2 tokenizers. Ambos executam 3 operações principais
- 1. treinamento do vocabulário e das fusões do tokenizer sobre um texto fornecido
- 1. codificação de texto em tokens
- 1. decodificação de tokens em texto
A classe base Tokenizer, a implementação mais simples BasicTokenizer e o RegexTokenizer, que divide a string de entrada com expressões regulares
GPT4Tokenizer, um wrapper de RegexTokenizer, reproduz exatamente a tokenização do GPT-4 na biblioteca tiktoken

1 comentários

xguru 2024-02-21

Também foi publicado um vídeo sobre como construir um GPT Tokenizer.
Construindo um GPT Tokenizer por Andrej Karpathy [vídeo]

minbpe - Implementação de Byte Pair Encoding usada na tokenização de LLMs

Leituras relacionadas

1 comentários