13 pontos por GN⁺ 2025-02-07 | 2 comentários | Compartilhar no WhatsApp
  • Vídeo com uma explicação aprofundada da tecnologia de IA dos modelos de linguagem de grande porte (LLMs) que impulsionam o ChatGPT e produtos relacionados, voltado ao público em geral (3h31min)
  • Aborda a pilha completa de treinamento sobre como os modelos são desenvolvidos, além de formas de pensar sobre a 'psicologia' do modelo e modelos mentais para aproveitar ao máximo os modelos em aplicações reais
  • Uma versão mais abrangente do vídeo "Intro to LLMs", publicado há 1 ano

Capítulos

00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary

2 comentários

 
nicewook 2025-02-08

A desvantagem (?) dos vídeos do Andrej Karpathy, eu acho, é que assistir em 1,5x é simplesmente impossível. Ele fala muito rápido. :-)

 
GN⁺ 2025-02-07
Comentários no Hacker News
  • Tenho muito respeito por esse cara. Ele é como o Neo, fazendo a ponte entre humanos e máquinas. Coisas que aprendi de graça com os repositórios e vídeos dele:

    • minGPT, nanoGPT (transformers)
    • NLP (faça mais séries)
    • tokenizers (no YouTube dele)
    • RNN (no blog dele)
    • Não existem muitas pessoas como o Karpathy em tantas áreas, e nem ouvimos falar delas. Fico feliz que esse cara esteja difundindo intuição sobre ML
  • Digo aos meus amigos que o Andrej foi o melhor instrutor que encontrei na pós-graduação. Eu não estudei em Stanford, mas assisti aos vídeos de CS321n dele no YouTube. Fico muito feliz que ele ainda esteja fazendo vídeos

  • Ele já fez mais de 5 vídeos cobrindo basicamente o mesmo tema sobre a arquitetura transformer e treinamento. Fico curioso sobre o que há de diferente neste vídeo

  • Gosto muito da série "let's build" dele. Além do conteúdo avançado, acabo aprendendo truques legais de Python

  • Fico frustrado por não conseguir me concentrar em vídeos longos. É bem provável que esses vídeos sejam muito melhores do que vídeos curtos

  • Ainda me lembro de como fazer backpropagation usando listas de Python como parte do projeto de CS231n. O surpreendente é que eu não estudei em Stanford

  • Obrigado, Andrej. Tenho uma compreensão bem boa de como LLMs funcionam e são treinados, mas muitos amigos meus não têm. Este vídeo e essas palestras dão a eles alguma ideia

  • Queria que houvesse outras formas de distribuir o vídeo. No YouTube, o conteúdo acaba desaparecendo com o tempo. Acho esse conteúdo importante. Quanto mais pessoas souberem como a IA funciona, mais forte a sociedade ficará

  • Assisti tudo... minhas bochechas adormeceram, mas valeu a pena. Obrigado, Andrej

  • Sou uma pessoa simples. Vejo um vídeo do Karpathy, clico, assisto e gosto