Para quem é esta análise aprofundada?
- Entender como os LLMs realmente funcionam: para quem quer conhecer os princípios de funcionamento dos LLMs além de uma compreensão superficial.
- Entender termos confusos de fine-tuning: para quem quer entender termos como
chat_template e ChatML.
- Melhorar o prompt engineering: para quem quer entender quais prompts funcionam melhor.
- Reduzir alucinações: para quem quer evitar que os LLMs gerem informações incorretas.
- Entender a importância do DeepSeek-R1: para quem quer saber por que o DeepSeek-R1 está recebendo tanta atenção agora.
Dados de pré-treinamento
Internet
- Os LLMs rastreiam a internet para construir conjuntos de dados massivos de texto.
- Os dados brutos estão cheios de conteúdo duplicado, texto de baixa qualidade e informações irrelevantes, por isso exigem uma filtragem rigorosa antes do treinamento.
- Por exemplo, o conjunto de dados FineWeb inclui mais de 1,2 bilhão de páginas da web.
Tokenização
- Tokenização é a forma como o modelo divide o texto em pequenas partes (tokens) antes de processá-lo.
- Técnicas como Byte Pair Encoding (BPE) são usadas.
- O GPT-4 usa 100.277 tokens.
Entrada e saída da rede neural
- Os dados tokenizados são inseridos na rede neural.
- O modelo prevê o próximo token com base nos padrões que aprendeu.
- Os pesos são ajustados para reduzir erros.
Interior da rede neural
- Dentro do modelo, bilhões de parâmetros interagem com os tokens de entrada para gerar uma distribuição de probabilidade para o próximo token.
- A arquitetura do modelo é projetada para equilibrar velocidade, precisão e paralelização.
Inferência
- Os LLMs não geram saídas determinísticas; elas são probabilísticas.
- A saída muda ligeiramente a cada execução.
- Por causa dessa aleatoriedade, os LLMs podem ser criativos, mas às vezes também geram informações incorretas.
GPT-2
- O GPT-2, lançado pela OpenAI em 2019, é um exemplo inicial de LLM baseado em transformer.
- Foi treinado com 1,6 bilhão de parâmetros, comprimento de contexto de 1024 tokens e cerca de 100 bilhões de tokens.
- Andrej Karpathy reproduziu o GPT-2 por $672 usando o llm.c.
Modelos base open source
- Algumas empresas treinam LLMs de grande porte e liberam gratuitamente os modelos base.
- Os modelos base são treinados com texto bruto da internet, por isso geram continuações, mas não entendem a intenção humana.
- A OpenAI abriu o código do GPT-2.
- A Meta disponibilizou o Llama 3.1 (405B parâmetros) como open source.
Do pré-treinamento ao pós-treinamento
- Os modelos base geram muitas alucinações.
- O pós-treinamento faz fine-tuning no modelo para que ele responda melhor.
- O pós-treinamento é muito mais barato do que o pré-treinamento.
Fine-tuning supervisionado (SFT)
Dados de conversação
- O modelo base é treinado com dados da internet e depois passa por pós-treinamento com conversas entre humano e assistente.
- Templates de conversa são usados para que o modelo entenda a estrutura do diálogo.
Alucinações, uso de ferramentas e memória
- O principal problema dos LLMs são as alucinações.
- A Meta explica no paper do Llama 3 como melhorar a factualidade.
- Também há maneiras de reduzir alucinações usando ferramentas.
Aprendizado por reforço
- O modelo é treinado com dados da internet, mas depois não sabe necessariamente como usar esse conhecimento de forma eficaz.
- O aprendizado por reforço (RL) melhora o modelo por tentativa e erro.
Como o RL funciona
- O RL faz o modelo experimentar várias soluções e encontrar a melhor.
- Por exemplo, ele gera 15 soluções, e apenas 4 acertam a resposta.
Aprendizado por reforço com feedback humano (RLHF)
- Em domínios que não podem ser verificados automaticamente, é necessário incluir humanos.
- O RLHF usa feedback humano para melhorar o modelo.
Perspectivas para o futuro
- Capacidades multimodais: entender e gerar não só texto, mas também imagens, áudio e vídeo.
- Modelos baseados em agentes: ir além de tarefas isoladas, com memória de longo prazo, raciocínio e capacidade de corrigir erros.
- IA universal e invisível: integração natural aos fluxos de trabalho.
- IA que usa computadores: interagir com software e realizar tarefas além da geração de texto.
Como encontrar LLMs
- Modelos proprietários: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) etc.
- Modelos com pesos abertos: DeepSeek, Meta (Llama) etc.
- Execução local: usar Ollama ou LM Studio.
- Modelos base: explorar o Hyperbolic.
1 comentários
Comentários do Hacker News
Estou procurando um bom lugar para discutir isso, já que o vídeo original saiu da primeira página do Hacker News
Surgiram algumas dúvidas enquanto eu assistia ao vídeo
A abordagem da Meta para resolver o problema de alucinação é interessante
O vídeo do Andrej é excelente, mas a explicação da parte de RL pareceu um pouco vaga
Aos 53 minutos do vídeo original, é mostrada a precisão com que o LLM cita com base no texto que aprendeu
Para um modelo ser "completamente" open source, além do próprio modelo e da forma de executá-lo, é preciso haver um programa capaz de treinar os dados
Li muitos artigos sobre LLMs e entendo de forma geral como eles funcionam, mas sempre me pergunto por que outros modelos não funcionam tão bem quanto os modelos SOTA
Vi um bom tópico hoje: [link]
É uma pena que o LLC in C dele tenha servido apenas como trampolim para o curso dele
Talvez seja realmente um ótimo resumo de uma aula excelente
Não vi o vídeo, mas fiquei curioso sobre a parte de tokenização do TL;DR