Entendendo o tokenizador do GPT
(simonwillison.net)- Modelos LLM como GPT/LLaMA/PaLM funcionam com base em tokens
- Recebem texto, o convertem em tokens (integers) e então preveem qual token virá em seguida
- A OpenAI disponibilizou um Tokenizer, mas o autor publicou sua própria versão em um notebook do Observable (baseada no GPT-2 e voltada para fins educacionais)
- Suporta texto-para-token, token-para-texto e busca em toda a tabela de tokens
-
The dog eats the apples
El perro come las manzanas
片仮名 - A explicação usa o resultado da conversão dessas frases em tokens
Theethesão tokens diferentes- Muitas palavras têm tokens que incluem um espaço em branco no início (muito mais eficiente para codificar frases inteiras)
- Palavras que não são em inglês acabam sendo tokenizadas de forma ineficiente
Ainda não há comentários.