Entendendo o tokenizador do GPT

xguru · 2023-06-12T10:57:14+09:00

Modelos LLM como GPT/LLaMA/PaLM funcionam com base em tokens Recebem texto, o convertem em tokens (integers) e então preveem qual token virá em seguida A OpenAI disponibilizou um Tokenizer, mas o autor publicou sua própria versão em um notebook do Observable (baseada no GPT-2 e voltada para fins educacionais) Suporta texto-para-token, token-para-texto e busca em toda a tabela de tokens The dog eats the apples El perro come las manzanas 片仮名 A explicação usa o resultado da conversão dessas frases em tokens The e the são tokens diferentes Muitas palavras têm tokens que incluem um espaço em branco no início (muito mais eficiente para codificar frases inteiras) Palavras que não são em inglês acabam sendo tokenizadas de forma ineficiente

(simonwillison.net)

15 pontos por xguru 2023-06-12 | Ainda não há comentários. | Compartilhar no WhatsApp

Modelos LLM como GPT/LLaMA/PaLM funcionam com base em tokens
Recebem texto, o convertem em tokens (integers) e então preveem qual token virá em seguida
A OpenAI disponibilizou um Tokenizer, mas o autor publicou sua própria versão em um notebook do Observable (baseada no GPT-2 e voltada para fins educacionais)
- Suporta texto-para-token, token-para-texto e busca em toda a tabela de tokens
The dog eats the apples
El perro come las manzanas
片仮名
A explicação usa o resultado da conversão dessas frases em tokens
- The e the são tokens diferentes
- Muitas palavras têm tokens que incluem um espaço em branco no início (muito mais eficiente para codificar frases inteiras)
- Palavras que não são em inglês acabam sendo tokenizadas de forma ineficiente

Entendendo o tokenizador do GPT

Leituras relacionadas

Ainda não há comentários.