- Um guia que explica visualmente como funcionam grandes modelos de linguagem como GPT-2, nano-gpt e GPT-3
- Índice: introdução e conhecimentos prévios, embeddings, normalização de camada, self-attention, projeção, MLP, transformer, Softmax, saída
Resumo da seção de introdução completa
- No caso do
nano-gpt, ele tem 85.000 parâmetros
- O objetivo é ordenar em ordem alfabética uma string dada de seis letras
- O processo de receber a string
C B A B B C como entrada e ordená-la como ABBBCC pode ser usado como exemplo.
- Cada letra da string é chamada de
token, e o vocabulário do modelo é composto por vários tokens
- Cada token recebe um índice numérico, que é então inserido no modelo
- Cada número é convertido em um vetor de 48 elementos, chamado de
embedding
- Os embeddings passam por uma série de camadas chamadas
transformer.
- Por fim, o modelo prevê a probabilidade do próximo token da sequência dada
- O token previsto é inserido novamente no topo do modelo, e todo o processo se repete
1 comentários
Opiniões do Hacker News
É uma ferramenta muito útil para entender LLMs de forma fundamental
model.pydo minGPT caso não esteja claro por que existem 48 elementos no primeiro array.Ficaram impressionados ao ver a complexidade algorítmica expressa com clareza em um espaço 3D
Esta visualização é realmente impressionante
É o tipo de visualização que estavam procurando há meses
Daria até para intitular como “dissecando a magia em multiplicação de matrizes e produto escalar”
O modelo 3D é impressionante do ponto de vista educacional
Ainda mais impressionante é como os LLMs conseguem funcionar tão bem
A explicação sobre o poder da self-attention muitas vezes fica de fora
O autor compartilhou mais contexto sobre esse trabalho em uma thread no Twitter
Para quem quiser uma versão de baixa dimensionalidade para o próprio modelo, recomendam a biblioteca Netron
Não é apenas um modelo 3D simples, mas um trabalho profundo
Esta visualização é realmente impressionante
É por isso que amam o Hacker News