Como construir um tokenizador GPT por Andrej Karpathy [Vídeo]

(youtube.com)

23 pontos por GN⁺ 2024-02-21 | 2 comentários | Compartilhar no WhatsApp

Tokenizer é um componente essencial e muito usado dos modelos de linguagem de grande porte (LLMs), responsável por converter entre strings e tokens (blocos de texto)
O tokenizer é uma etapa completamente separada no pipeline de LLM:
- Possui seu próprio conjunto de treinamento e algoritmo de treinamento (Byte Pair Encoding)
- Após o treinamento, implementa duas funções básicas:
- converter de string para tokens com encode(),
- e converter de tokens de volta para string com decode()
Nesta aula, ele mostra como construir do zero o tokenizer usado na série GPT da OpenAI
Ao longo do processo, você perceberá que muitos comportamentos estranhos e problemas dos LLMs na verdade são causados pela tokenização
Ele também analisa esses problemas e discute por que a tokenização é a causa deles e por que alguém deveria encontrar uma forma de eliminar completamente essa etapa

2 comentários

GN⁺ 2024-02-21

Comentários do Hacker News

O vídeo de Andrej Karpathy sobre a construção do GPT nano é um excelente tutorial que explica todas as etapas necessárias para desenvolver modelos de linguagem de grande porte (Large Language Models, LLMs) modernos.
- A série "zero to hero" ajuda a entender as ideias e perceber a simplicidade delas por meio de implementação real e explicações por analogia, sem usar comparações que façam os conceitos complexos parecerem assustadores ou excessivamente complicados.
- No começo, a curva de aprendizado é íngreme, mas é satisfatório porque a pessoa realmente passa a entender e a conseguir discutir os motivos.
Andrej Karpathy fala tão rápido que foi preciso conferir a velocidade de reprodução. Soa como se ele estivesse falando em 1,25x.
Mesmo pagando, é difícil conseguir conteúdo de qualidade tão alta quanto este.
Sobre a expressão "Quando é o ovo do universo, é um único token", não é certo que a tripulação da Nostromo concordaria. (Esta parte é uma piada que faz referência à nave espacial "Nostromo" do filme Alien, e é preciso ter esse contexto do filme para entender completamente o comentário.)

O resumo acima foi escrito para sintetizar cada comentário de forma neutra e com frases terminadas em forma nominal, acrescentando contexto de maneira concisa para que até engenheiros de software iniciantes possam entender.

wooseop 2024-02-21

Parece que o prompt era algo como "resuma cada comentário de forma neutra e em uma frase terminada em substantivo, adicionando contexto de forma concisa para que até um engenheiro de software iniciante consiga entender".

Como construir um tokenizador GPT por Andrej Karpathy [Vídeo]

Leituras relacionadas

2 comentários

Comentários do Hacker News