Análise de LLMs para entender a capacidade de raciocínio
(magazine.sebastianraschka.com)Entendendo: modelos de raciocínio
-
Definição de modelos de raciocínio: modelos de raciocínio são o processo de responder a perguntas que exigem geração em múltiplas etapas, incluindo passos intermediários, para resolver problemas complexos. Por exemplo, uma pergunta como "se um trem viaja a 60 milhas por hora durante 3 horas, quão longe ele vai?" exige raciocínio, ao contrário de uma pergunta simples baseada em fatos.
-
Necessidade de modelos de raciocínio: são adequados para tarefas complexas, como quebra-cabeças, problemas avançados de matemática e problemas complexos de programação. No entanto, não são necessários para tarefas simples, como resumo, tradução e perguntas e respostas baseadas em conhecimento. Modelos de raciocínio têm custo alto e, às vezes, podem gerar erros por pensarem demais.
Pipeline de treinamento do DeepSeek R1
-
DeepSeek-R1-Zero: modelo baseado no DeepSeek-V3 pré-treinado de 671B, treinado apenas com aprendizado por reforço (RL). Isso é chamado de treinamento de "cold start" e, diferentemente do RLHF comum, não há etapa de ajuste fino supervisionado (SFT).
-
DeepSeek-R1: principal modelo de raciocínio da DeepSeek, aprimorado a partir do DeepSeek-R1-Zero com uma etapa adicional de SFT e treinamento com RL.
-
DeepSeek-R1-Distill: melhora a capacidade de raciocínio ao ajustar finamente modelos Qwen e Llama usando os dados de SFT gerados na etapa anterior.
Quatro principais métodos para construir e melhorar modelos de raciocínio
-
Escalonamento em tempo de inferência: método de melhorar a qualidade da saída aumentando os recursos computacionais durante a inferência. Por exemplo, incluir no prompt frases como "pense passo a passo" induz o modelo a gerar etapas intermediárias de raciocínio.
-
Aprendizado por reforço puro (RL): o DeepSeek-R1-Zero mostra que o raciocínio pode emergir como comportamento por meio de RL puro. Usa recompensa por precisão e recompensa por formato para fazer o modelo desenvolver técnicas básicas de raciocínio.
-
Ajuste fino supervisionado (SFT) e aprendizado por reforço (RL): o DeepSeek-R1 melhora o desempenho de raciocínio ao combinar SFT e RL. Essa é uma abordagem importante para construir modelos de raciocínio de alto desempenho.
-
Ajuste fino supervisionado (SFT) puro e destilação: a DeepSeek aumenta a eficiência treinando modelos menores. Apesar de menores, eles mostram desempenho relativamente forte em comparação com o DeepSeek-R1-Zero.
Reflexões sobre o DeepSeek R1
- O DeepSeek-R1 é fornecido como open source sob a licença MIT, tornando-se um recurso útil para pesquisadores. Em comparação com o o1 da OpenAI, o DeepSeek-R1 é mais eficiente em tempo de inferência. No entanto, como há poucos detalhes sobre o o1 da OpenAI, uma comparação direta é difícil.
Desenvolvimento de modelos de raciocínio com orçamento limitado
- A destilação de modelos pode ser uma alternativa com boa relação custo-benefício. A equipe da DeepSeek demonstrou isso com o modelo R1-distilled, que é muito menor que o DeepSeek-R1, mas apresenta forte desempenho de raciocínio.
1 comentários
Comentários do Hacker News
Os modelos de raciocínio de LLM tendem a estar excessivamente otimizados para problemas de programação e matemática
É necessária pesquisa sobre treinar LLMs com linguagens formais restritas, e não com linguagem natural
O "pensar demais" dos modelos de raciocínio pode ser o próximo grande problema
O artigo do R1 é fácil de ler, e os resultados falam por si
Se LLMs realmente "pensam" ou não é uma discussão separada
Há casos reais em que a IA faz identificação excessiva em imagens médicas
É preciso entender que LLMs não conseguem raciocinar
A alegação de "aha moment" no relatório técnico do DeepSeek-R1 é suspeita
Há alguns meses, foi proposto no HN um método de refinamento para melhorar LLMs, e isso agora está sendo descrito como "raciocínio"