1 pontos por GN⁺ 2024-09-01 | 1 comentários | Compartilhar no WhatsApp
  • Se você quer investir algumas horas no fim de semana para entender modelos de linguagem de grande porte (LLMs), foi preparada uma apresentação de workshop de programação de 3 horas sobre implementação, treinamento e uso
  • Abaixo está o sumário que mostra o conteúdo abordado no vídeo (o próprio vídeo tem marcações de capítulos clicáveis para ir direto aos tópicos de interesse)

Sumário

  • 0:00 – Visão geral do workshop

  • 2:17 – Parte 1: Introdução aos LLMs

  • 9:14 – Materiais do workshop

  • 10:48 – Parte 2: Entendendo os dados de entrada de LLMs

  • 23:25 – Classe simples de tokenizador

  • 41:03 – Parte 3: Codificando a arquitetura de um LLM

  • 45:01 – GPT-2 e Llama 2

  • 1:07:11 – Parte 4: Pré-treinamento

  • 1:29:37 – Parte 5.1: Carregando pesos pré-treinados

  • 1:45:12 – Parte 5.2: Pesos pré-treinados com LitGPT

  • 1:53:09 – Parte 6.1: Ajuste fino por instruções

  • 2:08:21 – Parte 6.2: Ajuste fino por instruções com LitGPT

  • 2:26:45 – Parte 6.3: Avaliação de benchmark

  • 2:36:55 – Parte 6.4: Avaliação de desempenho em conversação

  • 2:42:40 – Conclusão

  • É um pouco diferente do conteúdo habitual baseado em texto, mas como teve uma resposta muito boa alguns meses atrás, pareceu uma boa ideia fazer isso novamente

  • Espero que aproveitem!

Materiais de referência

  1. Livro Build an LLM from Scratch
  2. Repositório GitHub de Build an LLM from Scratch
  3. Repositório GitHub com o código do workshop
  4. Lightning Studio para este workshop
  5. Repositório GitHub do LitGPT

Assine Ahead of AI

  • Projeto iniciado por Sebastian Raschka há 2 anos
  • Ahead of AI é especializado em pesquisa de machine learning e IA, e é lido por dezenas de milhares de pesquisadores e profissionais que querem se manter à frente em uma área em constante mudança

Resumo do GN⁺

  • Este workshop é muito útil para quem quer aprender a implementar e treinar LLMs do zero
  • Aborda modelos como GPT-2 e Llama 2, e explica como carregar pesos pré-treinados e realizar ajuste fino por instruções
  • Pode ser muito interessante e útil para pessoas interessadas em pesquisa de machine learning e IA
  • Outros projetos com funcionalidades semelhantes incluem a biblioteca Transformers da Hugging Face e os modelos GPT da OpenAI

1 comentários

 
GN⁺ 2024-09-01
Comentários do Hacker News
  • Agradece pelo compartilhamento, com o comentário de que “voltar ao básico é sempre bom”

  • Pergunta: “Desculpem a ignorância, mas isso é diferente do vídeo do Andrej Karpathy em https://www.youtube.com/watch?v=kCc8FmEb1nY?”

    • Comenta também que “de qualquer forma, vou assistir hoje à noite antes de dormir”
  • Diz que “os textos do Sebastian são bons” e que está ansioso pelo livro

    • Afirma que há muitos detalhes sobre a composição dos LLMs e gostaria que fosse mais aprofundado como a Llama e a OpenAI organizam e estruturam os dados de treinamento
    • Comenta que “isso parece ser a batalha importante no longo prazo”