Resumo do vídeo de Andrej Karpathy "Análise aprofundada de LLMs como o ChatGPT"

(anfalmushtaq.com)

2 pontos por GN⁺ 2025-02-11 | 1 comentários | Compartilhar no WhatsApp

Para quem é esta análise aprofundada?

Entender como os LLMs realmente funcionam: para quem quer conhecer os princípios de funcionamento dos LLMs além de uma compreensão superficial.
Entender termos confusos de fine-tuning: para quem quer entender termos como chat_template e ChatML.
Melhorar o prompt engineering: para quem quer entender quais prompts funcionam melhor.
Reduzir alucinações: para quem quer evitar que os LLMs gerem informações incorretas.
Entender a importância do DeepSeek-R1: para quem quer saber por que o DeepSeek-R1 está recebendo tanta atenção agora.

Dados de pré-treinamento

Internet

Os LLMs rastreiam a internet para construir conjuntos de dados massivos de texto.
Os dados brutos estão cheios de conteúdo duplicado, texto de baixa qualidade e informações irrelevantes, por isso exigem uma filtragem rigorosa antes do treinamento.
Por exemplo, o conjunto de dados FineWeb inclui mais de 1,2 bilhão de páginas da web.

Tokenização

Tokenização é a forma como o modelo divide o texto em pequenas partes (tokens) antes de processá-lo.
Técnicas como Byte Pair Encoding (BPE) são usadas.
O GPT-4 usa 100.277 tokens.

Entrada e saída da rede neural

Os dados tokenizados são inseridos na rede neural.
O modelo prevê o próximo token com base nos padrões que aprendeu.
Os pesos são ajustados para reduzir erros.

Interior da rede neural

Dentro do modelo, bilhões de parâmetros interagem com os tokens de entrada para gerar uma distribuição de probabilidade para o próximo token.
A arquitetura do modelo é projetada para equilibrar velocidade, precisão e paralelização.

Inferência

Os LLMs não geram saídas determinísticas; elas são probabilísticas.
A saída muda ligeiramente a cada execução.
Por causa dessa aleatoriedade, os LLMs podem ser criativos, mas às vezes também geram informações incorretas.

GPT-2

O GPT-2, lançado pela OpenAI em 2019, é um exemplo inicial de LLM baseado em transformer.
Foi treinado com 1,6 bilhão de parâmetros, comprimento de contexto de 1024 tokens e cerca de 100 bilhões de tokens.
Andrej Karpathy reproduziu o GPT-2 por $672 usando o llm.c.

Modelos base open source

Algumas empresas treinam LLMs de grande porte e liberam gratuitamente os modelos base.
Os modelos base são treinados com texto bruto da internet, por isso geram continuações, mas não entendem a intenção humana.
A OpenAI abriu o código do GPT-2.
A Meta disponibilizou o Llama 3.1 (405B parâmetros) como open source.

Do pré-treinamento ao pós-treinamento

Os modelos base geram muitas alucinações.
O pós-treinamento faz fine-tuning no modelo para que ele responda melhor.
O pós-treinamento é muito mais barato do que o pré-treinamento.

Fine-tuning supervisionado (SFT)

Dados de conversação

O modelo base é treinado com dados da internet e depois passa por pós-treinamento com conversas entre humano e assistente.
Templates de conversa são usados para que o modelo entenda a estrutura do diálogo.

Alucinações, uso de ferramentas e memória

O principal problema dos LLMs são as alucinações.
A Meta explica no paper do Llama 3 como melhorar a factualidade.
Também há maneiras de reduzir alucinações usando ferramentas.

Aprendizado por reforço

O modelo é treinado com dados da internet, mas depois não sabe necessariamente como usar esse conhecimento de forma eficaz.
O aprendizado por reforço (RL) melhora o modelo por tentativa e erro.

Como o RL funciona

O RL faz o modelo experimentar várias soluções e encontrar a melhor.
Por exemplo, ele gera 15 soluções, e apenas 4 acertam a resposta.

Aprendizado por reforço com feedback humano (RLHF)

Em domínios que não podem ser verificados automaticamente, é necessário incluir humanos.
O RLHF usa feedback humano para melhorar o modelo.

Perspectivas para o futuro

Capacidades multimodais: entender e gerar não só texto, mas também imagens, áudio e vídeo.
Modelos baseados em agentes: ir além de tarefas isoladas, com memória de longo prazo, raciocínio e capacidade de corrigir erros.
IA universal e invisível: integração natural aos fluxos de trabalho.
IA que usa computadores: interagir com software e realizar tarefas além da geração de texto.

Como encontrar LLMs

Modelos proprietários: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) etc.
Modelos com pesos abertos: DeepSeek, Meta (Llama) etc.
Execução local: usar Ollama ou LM Studio.
Modelos base: explorar o Hyperbolic.

1 comentários

GN⁺ 2025-02-11

Comentários do Hacker News

Estou procurando um bom lugar para discutir isso, já que o vídeo original saiu da primeira página do Hacker News
Surgiram algumas dúvidas enquanto eu assistia ao vídeo
- Matemática e LLMs
  - Fiquei me perguntando por que a maioria dos exemplos que o Andrej apresentou para LLMs são problemas de cálculo
  - Acho que a capacidade de cálculo dos LLMs está ficando poderosa e útil, mas não é uma capacidade fundamental
  - Gostaria que houvesse uma distinção entre prompts que mostram a capacidade central dos LLMs e cálculos matemáticos
  - Seria bom ter boas referências sobre discussões da capacidade matemática ou sobre a sensatez de fazer LLMs realizarem matemática
- Meta
  - O Andrej menciona brevemente situações em que LLMs são usados para treinar e avaliar outros LLMs, mas não há muita discussão sobre isso
  - Quero saber mais sobre as limitações e os riscos de usar LLMs para treinar/avaliar outros LLMs
  - Sinto que os resultados iniciais e os avanços sendo imediatamente realimentados no desenvolvimento de técnicas mais poderosas se parecem com o Projeto Manhattan e as armas atômicas
A abordagem da Meta para resolver o problema de alucinação é interessante
- Eles extraem parte dos dados de treinamento e usam o Llama 3 para gerar perguntas factuais
- O Llama 3 gera respostas e elas são comparadas com os dados originais para receber uma pontuação
- Quando está errado, o modelo é treinado para reconhecer a resposta incorreta e recusá-la
- Isso vai contra a tendência natural de engenheiros de ML, e é importante ensinar o modelo a reconhecer o que ele não sabe
O vídeo do Andrej é excelente, mas a explicação da parte de RL pareceu um pouco vaga
- Fico me perguntando como o treinamento para respostas corretas é feito
- Não sei se coletam o processo de raciocínio e treinam como em aprendizado supervisionado, ou se calculam uma pontuação e a usam como função de perda
- A recompensa pode ser muito esparsa, e fico pensando no que acontece quando o problema é difícil demais e o LLM não consegue gerar a resposta correta
- Como a atualização dos parâmetros é sequencial, fico pensando como o treinamento de LLMs pode ser paralelizado
Aos 53 minutos do vídeo original, é mostrada a precisão com que o LLM cita com base no texto que aprendeu
- Fico me perguntando como as grandes empresas convenceram os tribunais de que isso não é violação de direitos autorais
- Imagino que, se eu treinasse um modelo para desenhar personagens da Disney, seria processado imediatamente
Para um modelo ser "completamente" open source, além do próprio modelo e da forma de executá-lo, é preciso haver um programa capaz de treinar os dados
- Consulte a definição de IA open source da OSI
Li muitos artigos sobre LLMs e entendo de forma geral como eles funcionam, mas sempre me pergunto por que outros modelos não funcionam tão bem quanto os modelos SOTA
- Tenho curiosidade sobre a história e os motivos da arquitetura atual dos modelos
Vi um bom tópico hoje: [link]
É uma pena que o LLC in C dele tenha servido apenas como trampolim para o curso dele
Talvez seja realmente um ótimo resumo de uma aula excelente
- Estou pensando em acompanhar o original
Não vi o vídeo, mas fiquei curioso sobre a parte de tokenização do TL;DR
- Se você olhar o texto tokenizado no artigo linkado, não é "I View", e sim o caractere pipe "|"
- Na etapa 3 do link postado por @miletus nos comentários do Hacker News, o texto tokenizado é "|Viewing Single (Post From) . . ."
- O uso de maiúsculas (View, Single) faz mais sentido ao olhar para essa parte da frase

Resumo do vídeo de Andrej Karpathy "Análise aprofundada de LLMs como o ChatGPT"

Para quem é esta análise aprofundada?

Dados de pré-treinamento

Internet

Tokenização

Entrada e saída da rede neural

Interior da rede neural

Inferência

GPT-2

Modelos base open source

Do pré-treinamento ao pós-treinamento

Fine-tuning supervisionado (SFT)

Dados de conversação

Alucinações, uso de ferramentas e memória

Aprendizado por reforço

Como o RL funciona

Aprendizado por reforço com feedback humano (RLHF)

Perspectivas para o futuro

Como encontrar LLMs

Leituras relacionadas

1 comentários

Comentários do Hacker News