- Um tutorial para implementar um GPT simples assumindo familiaridade com Python e Numpy, e depois carregar o modelo GPT-2 disponibilizado pela OpenAI para gerar texto
Índice
- O que é GPT
- Configuração: Encoder, Hyperparameters, Parameters
- Camadas básicas: GeLU, Softmax, Layer Normalization, Linear
- Arquitetura GPT
- Embeddings
- Pilha de decodificadores
- Projeção para o vocabulário
- Bloco decodificador
- Rede feed-forward position-wise
- Atenção causal self-attention multi-head
- Juntando tudo
- What's Next?
- Suporte a GPU/TPU
- Backpropagation
- Batching
- Otimização de inferência
- Treinamento
- Avaliação
- Melhorias de arquitetura
Ainda não há comentários.