15 pontos por xguru 2023-06-12 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Modelos LLM como GPT/LLaMA/PaLM funcionam com base em tokens
  • Recebem texto, o convertem em tokens (integers) e então preveem qual token virá em seguida
  • A OpenAI disponibilizou um Tokenizer, mas o autor publicou sua própria versão em um notebook do Observable (baseada no GPT-2 e voltada para fins educacionais)
    • Suporta texto-para-token, token-para-texto e busca em toda a tabela de tokens
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • A explicação usa o resultado da conversão dessas frases em tokens
    • The e the são tokens diferentes
    • Muitas palavras têm tokens que incluem um espaço em branco no início (muito mais eficiente para codificar frases inteiras)
    • Palavras que não são em inglês acabam sendo tokenizadas de forma ineficiente

Ainda não há comentários.

Ainda não há comentários.