- Tokenizer é um componente essencial e muito usado dos modelos de linguagem de grande porte (LLMs), responsável por converter entre strings e tokens (blocos de texto)
- O tokenizer é uma etapa completamente separada no pipeline de LLM:
- Possui seu próprio conjunto de treinamento e algoritmo de treinamento (Byte Pair Encoding)
- Após o treinamento, implementa duas funções básicas:
- converter de string para tokens com
encode(),
- e converter de tokens de volta para string com
decode()
- Nesta aula, ele mostra como construir do zero o tokenizer usado na série GPT da OpenAI
- Ao longo do processo, você perceberá que muitos comportamentos estranhos e problemas dos LLMs na verdade são causados pela tokenização
- Ele também analisa esses problemas e discute por que a tokenização é a causa deles e por que alguém deveria encontrar uma forma de eliminar completamente essa etapa
2 comentários
Comentários do Hacker News
O vídeo de Andrej Karpathy sobre a construção do GPT nano é um excelente tutorial que explica todas as etapas necessárias para desenvolver modelos de linguagem de grande porte (Large Language Models, LLMs) modernos.
Andrej Karpathy fala tão rápido que foi preciso conferir a velocidade de reprodução. Soa como se ele estivesse falando em 1,25x.
Mesmo pagando, é difícil conseguir conteúdo de qualidade tão alta quanto este.
Sobre a expressão "Quando é o ovo do universo, é um único token", não é certo que a tripulação da Nostromo concordaria. (Esta parte é uma piada que faz referência à nave espacial "Nostromo" do filme Alien, e é preciso ter esse contexto do filme para entender completamente o comentário.)
O resumo acima foi escrito para sintetizar cada comentário de forma neutra e com frases terminadas em forma nominal, acrescentando contexto de maneira concisa para que até engenheiros de software iniciantes possam entender.
Parece que o prompt era algo como "resuma cada comentário de forma neutra e em uma frase terminada em substantivo, adicionando contexto de forma concisa para que até um engenheiro de software iniciante consiga entender".