2 pontos por GN⁺ 2025-02-11 | 1 comentários | Compartilhar no WhatsApp

Para quem é esta análise aprofundada?

  • Entender como os LLMs realmente funcionam: para quem quer conhecer os princípios de funcionamento dos LLMs além de uma compreensão superficial.
  • Entender termos confusos de fine-tuning: para quem quer entender termos como chat_template e ChatML.
  • Melhorar o prompt engineering: para quem quer entender quais prompts funcionam melhor.
  • Reduzir alucinações: para quem quer evitar que os LLMs gerem informações incorretas.
  • Entender a importância do DeepSeek-R1: para quem quer saber por que o DeepSeek-R1 está recebendo tanta atenção agora.

Dados de pré-treinamento

Internet

  • Os LLMs rastreiam a internet para construir conjuntos de dados massivos de texto.
  • Os dados brutos estão cheios de conteúdo duplicado, texto de baixa qualidade e informações irrelevantes, por isso exigem uma filtragem rigorosa antes do treinamento.
  • Por exemplo, o conjunto de dados FineWeb inclui mais de 1,2 bilhão de páginas da web.

Tokenização

  • Tokenização é a forma como o modelo divide o texto em pequenas partes (tokens) antes de processá-lo.
  • Técnicas como Byte Pair Encoding (BPE) são usadas.
  • O GPT-4 usa 100.277 tokens.

Entrada e saída da rede neural

  • Os dados tokenizados são inseridos na rede neural.
  • O modelo prevê o próximo token com base nos padrões que aprendeu.
  • Os pesos são ajustados para reduzir erros.

Interior da rede neural

  • Dentro do modelo, bilhões de parâmetros interagem com os tokens de entrada para gerar uma distribuição de probabilidade para o próximo token.
  • A arquitetura do modelo é projetada para equilibrar velocidade, precisão e paralelização.

Inferência

  • Os LLMs não geram saídas determinísticas; elas são probabilísticas.
  • A saída muda ligeiramente a cada execução.
  • Por causa dessa aleatoriedade, os LLMs podem ser criativos, mas às vezes também geram informações incorretas.

GPT-2

  • O GPT-2, lançado pela OpenAI em 2019, é um exemplo inicial de LLM baseado em transformer.
  • Foi treinado com 1,6 bilhão de parâmetros, comprimento de contexto de 1024 tokens e cerca de 100 bilhões de tokens.
  • Andrej Karpathy reproduziu o GPT-2 por $672 usando o llm.c.

Modelos base open source

  • Algumas empresas treinam LLMs de grande porte e liberam gratuitamente os modelos base.
  • Os modelos base são treinados com texto bruto da internet, por isso geram continuações, mas não entendem a intenção humana.
  • A OpenAI abriu o código do GPT-2.
  • A Meta disponibilizou o Llama 3.1 (405B parâmetros) como open source.

Do pré-treinamento ao pós-treinamento

  • Os modelos base geram muitas alucinações.
  • O pós-treinamento faz fine-tuning no modelo para que ele responda melhor.
  • O pós-treinamento é muito mais barato do que o pré-treinamento.

Fine-tuning supervisionado (SFT)

Dados de conversação

  • O modelo base é treinado com dados da internet e depois passa por pós-treinamento com conversas entre humano e assistente.
  • Templates de conversa são usados para que o modelo entenda a estrutura do diálogo.

Alucinações, uso de ferramentas e memória

  • O principal problema dos LLMs são as alucinações.
  • A Meta explica no paper do Llama 3 como melhorar a factualidade.
  • Também há maneiras de reduzir alucinações usando ferramentas.

Aprendizado por reforço

  • O modelo é treinado com dados da internet, mas depois não sabe necessariamente como usar esse conhecimento de forma eficaz.
  • O aprendizado por reforço (RL) melhora o modelo por tentativa e erro.

Como o RL funciona

  • O RL faz o modelo experimentar várias soluções e encontrar a melhor.
  • Por exemplo, ele gera 15 soluções, e apenas 4 acertam a resposta.

Aprendizado por reforço com feedback humano (RLHF)

  • Em domínios que não podem ser verificados automaticamente, é necessário incluir humanos.
  • O RLHF usa feedback humano para melhorar o modelo.

Perspectivas para o futuro

  • Capacidades multimodais: entender e gerar não só texto, mas também imagens, áudio e vídeo.
  • Modelos baseados em agentes: ir além de tarefas isoladas, com memória de longo prazo, raciocínio e capacidade de corrigir erros.
  • IA universal e invisível: integração natural aos fluxos de trabalho.
  • IA que usa computadores: interagir com software e realizar tarefas além da geração de texto.

Como encontrar LLMs

  • Modelos proprietários: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) etc.
  • Modelos com pesos abertos: DeepSeek, Meta (Llama) etc.
  • Execução local: usar Ollama ou LM Studio.
  • Modelos base: explorar o Hyperbolic.

1 comentários

 
GN⁺ 2025-02-11
Comentários do Hacker News
  • Estou procurando um bom lugar para discutir isso, já que o vídeo original saiu da primeira página do Hacker News

  • Surgiram algumas dúvidas enquanto eu assistia ao vídeo

    • Matemática e LLMs
      • Fiquei me perguntando por que a maioria dos exemplos que o Andrej apresentou para LLMs são problemas de cálculo
      • Acho que a capacidade de cálculo dos LLMs está ficando poderosa e útil, mas não é uma capacidade fundamental
      • Gostaria que houvesse uma distinção entre prompts que mostram a capacidade central dos LLMs e cálculos matemáticos
      • Seria bom ter boas referências sobre discussões da capacidade matemática ou sobre a sensatez de fazer LLMs realizarem matemática
    • Meta
      • O Andrej menciona brevemente situações em que LLMs são usados para treinar e avaliar outros LLMs, mas não há muita discussão sobre isso
      • Quero saber mais sobre as limitações e os riscos de usar LLMs para treinar/avaliar outros LLMs
      • Sinto que os resultados iniciais e os avanços sendo imediatamente realimentados no desenvolvimento de técnicas mais poderosas se parecem com o Projeto Manhattan e as armas atômicas
  • A abordagem da Meta para resolver o problema de alucinação é interessante

    • Eles extraem parte dos dados de treinamento e usam o Llama 3 para gerar perguntas factuais
    • O Llama 3 gera respostas e elas são comparadas com os dados originais para receber uma pontuação
    • Quando está errado, o modelo é treinado para reconhecer a resposta incorreta e recusá-la
    • Isso vai contra a tendência natural de engenheiros de ML, e é importante ensinar o modelo a reconhecer o que ele não sabe
  • O vídeo do Andrej é excelente, mas a explicação da parte de RL pareceu um pouco vaga

    • Fico me perguntando como o treinamento para respostas corretas é feito
    • Não sei se coletam o processo de raciocínio e treinam como em aprendizado supervisionado, ou se calculam uma pontuação e a usam como função de perda
    • A recompensa pode ser muito esparsa, e fico pensando no que acontece quando o problema é difícil demais e o LLM não consegue gerar a resposta correta
    • Como a atualização dos parâmetros é sequencial, fico pensando como o treinamento de LLMs pode ser paralelizado
  • Aos 53 minutos do vídeo original, é mostrada a precisão com que o LLM cita com base no texto que aprendeu

    • Fico me perguntando como as grandes empresas convenceram os tribunais de que isso não é violação de direitos autorais
    • Imagino que, se eu treinasse um modelo para desenhar personagens da Disney, seria processado imediatamente
  • Para um modelo ser "completamente" open source, além do próprio modelo e da forma de executá-lo, é preciso haver um programa capaz de treinar os dados

    • Consulte a definição de IA open source da OSI
  • Li muitos artigos sobre LLMs e entendo de forma geral como eles funcionam, mas sempre me pergunto por que outros modelos não funcionam tão bem quanto os modelos SOTA

    • Tenho curiosidade sobre a história e os motivos da arquitetura atual dos modelos
  • Vi um bom tópico hoje: [link]

  • É uma pena que o LLC in C dele tenha servido apenas como trampolim para o curso dele

  • Talvez seja realmente um ótimo resumo de uma aula excelente

    • Estou pensando em acompanhar o original
  • Não vi o vídeo, mas fiquei curioso sobre a parte de tokenização do TL;DR

    • Se você olhar o texto tokenizado no artigo linkado, não é "I View", e sim o caractere pipe "|"
    • Na etapa 3 do link postado por @miletus nos comentários do Hacker News, o texto tokenizado é "|Viewing Single (Post From) . . ."
    • O uso de maiúsculas (View, Single) faz mais sentido ao olhar para essa parte da frase