Construindo LLMs do zero: workshop de programação de 3 horas
(magazine.sebastianraschka.com)- Se você quer investir algumas horas no fim de semana para entender modelos de linguagem de grande porte (LLMs), foi preparada uma apresentação de workshop de programação de 3 horas sobre implementação, treinamento e uso
- Abaixo está o sumário que mostra o conteúdo abordado no vídeo (o próprio vídeo tem marcações de capítulos clicáveis para ir direto aos tópicos de interesse)
Sumário
-
0:00 – Visão geral do workshop
-
2:17 – Parte 1: Introdução aos LLMs
-
9:14 – Materiais do workshop
-
10:48 – Parte 2: Entendendo os dados de entrada de LLMs
-
23:25 – Classe simples de tokenizador
-
41:03 – Parte 3: Codificando a arquitetura de um LLM
-
45:01 – GPT-2 e Llama 2
-
1:07:11 – Parte 4: Pré-treinamento
-
1:29:37 – Parte 5.1: Carregando pesos pré-treinados
-
1:45:12 – Parte 5.2: Pesos pré-treinados com LitGPT
-
1:53:09 – Parte 6.1: Ajuste fino por instruções
-
2:08:21 – Parte 6.2: Ajuste fino por instruções com LitGPT
-
2:26:45 – Parte 6.3: Avaliação de benchmark
-
2:36:55 – Parte 6.4: Avaliação de desempenho em conversação
-
2:42:40 – Conclusão
-
É um pouco diferente do conteúdo habitual baseado em texto, mas como teve uma resposta muito boa alguns meses atrás, pareceu uma boa ideia fazer isso novamente
-
Espero que aproveitem!
Materiais de referência
- Livro Build an LLM from Scratch
- Repositório GitHub de Build an LLM from Scratch
- Repositório GitHub com o código do workshop
- Lightning Studio para este workshop
- Repositório GitHub do LitGPT
Assine Ahead of AI
- Projeto iniciado por Sebastian Raschka há 2 anos
- Ahead of AI é especializado em pesquisa de machine learning e IA, e é lido por dezenas de milhares de pesquisadores e profissionais que querem se manter à frente em uma área em constante mudança
Resumo do GN⁺
- Este workshop é muito útil para quem quer aprender a implementar e treinar LLMs do zero
- Aborda modelos como GPT-2 e Llama 2, e explica como carregar pesos pré-treinados e realizar ajuste fino por instruções
- Pode ser muito interessante e útil para pessoas interessadas em pesquisa de machine learning e IA
- Outros projetos com funcionalidades semelhantes incluem a biblioteca Transformers da Hugging Face e os modelos GPT da OpenAI
1 comentários
Comentários do Hacker News
Agradece pelo compartilhamento, com o comentário de que “voltar ao básico é sempre bom”
Pergunta: “Desculpem a ignorância, mas isso é diferente do vídeo do Andrej Karpathy em https://www.youtube.com/watch?v=kCc8FmEb1nY?”
Diz que “os textos do Sebastian são bons” e que está ansioso pelo livro