- Grandes modelos de linguagem baseados em GPT: apresenta brevemente o funcionamento do nano-gpt
- O objetivo deste modelo é receber uma sequência de 6 caracteres e ordená-los em ordem alfabética
- Cada caractere é tratado como um token, e todos os tokens possuem um índice de token único
- Cada índice de token é convertido em um vetor de embedding de 48 dimensões e passa por uma série de camadas Transformer
- O modelo prevê o próximo token, e o resultado pode ser reutilizado de forma iterativa para desenvolver a sequência de entrada
Introdução ao modelo de linguagem GPT
- Este documento é um material que explica visualmente como funciona um grande modelo de linguagem GPT
- Aqui é usado o nano-gpt, um modelo bem pequeno (cerca de 85.000 parâmetros)
- O objetivo do modelo é receber uma sequência composta por 6 caracteres e ordená-la em ordem alfabética (ex.: "ABBBCC")
Tokens e vocabulário
- Cada caractere é definido como um token, e o conjunto de todos os tokens reconhecidos pelo modelo é chamado de vocabulário (vocabulary)
- Na tabela, cada token recebe um número único (índice de token)
- A sequência numérica desses índices de token é usada como entrada do modelo
Transformação de entrada e embeddings
- Na visualização 3D, as células verdes representam os números em processamento, e as células azuis representam os pesos (weights) do modelo
- Cada número de entrada é convertido em um vetor de embedding de 48 dimensões
- Esses embeddings passam sequencialmente por várias camadas Transformer dentro da arquitetura do modelo
Saída e processo de previsão
- A saída do modelo é apresentada como a probabilidade do próximo token previsto para aquela sequência
- Na 6ª posição de entrada, ele prevê a distribuição de probabilidade de o próximo token ser 'A', 'B' ou 'C'
- No exemplo, o modelo prevê que 'A' tem a maior probabilidade
- Esse resultado previsto é inserido novamente na entrada, repetindo o processo até gerar a sequência completa
1 comentários
Comentários no Hacker News
LLM Visualization - dezembro de 2023, 131 comentários
https://poloclub.github.io/transformer-explainer/
E também recomendam o famoso material de visualização chamado 'The Illustrated Transformer'
https://jalammar.github.io/illustrated-transformer/
Também há uma postagem de Sebastian Raschka, PhD, sobre a arquitetura
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Neste comentário do Hacker News dá para ver vários recursos de uma vez
https://news.ycombinator.com/item?id=35712334
https://alphacode.deepmind.com/
(No celular, é só apertar play, dar zoom out até o final e depois rolar para baixo)