Análise de LLMs para entender a capacidade de raciocínio

(magazine.sebastianraschka.com)

6 pontos por GN⁺ 2025-02-08 | 1 comentários | Compartilhar no WhatsApp

Entendendo: modelos de raciocínio

Definição de modelos de raciocínio: modelos de raciocínio são o processo de responder a perguntas que exigem geração em múltiplas etapas, incluindo passos intermediários, para resolver problemas complexos. Por exemplo, uma pergunta como "se um trem viaja a 60 milhas por hora durante 3 horas, quão longe ele vai?" exige raciocínio, ao contrário de uma pergunta simples baseada em fatos.
Necessidade de modelos de raciocínio: são adequados para tarefas complexas, como quebra-cabeças, problemas avançados de matemática e problemas complexos de programação. No entanto, não são necessários para tarefas simples, como resumo, tradução e perguntas e respostas baseadas em conhecimento. Modelos de raciocínio têm custo alto e, às vezes, podem gerar erros por pensarem demais.

Pipeline de treinamento do DeepSeek R1

DeepSeek-R1-Zero: modelo baseado no DeepSeek-V3 pré-treinado de 671B, treinado apenas com aprendizado por reforço (RL). Isso é chamado de treinamento de "cold start" e, diferentemente do RLHF comum, não há etapa de ajuste fino supervisionado (SFT).
DeepSeek-R1: principal modelo de raciocínio da DeepSeek, aprimorado a partir do DeepSeek-R1-Zero com uma etapa adicional de SFT e treinamento com RL.
DeepSeek-R1-Distill: melhora a capacidade de raciocínio ao ajustar finamente modelos Qwen e Llama usando os dados de SFT gerados na etapa anterior.

Quatro principais métodos para construir e melhorar modelos de raciocínio

Escalonamento em tempo de inferência: método de melhorar a qualidade da saída aumentando os recursos computacionais durante a inferência. Por exemplo, incluir no prompt frases como "pense passo a passo" induz o modelo a gerar etapas intermediárias de raciocínio.
Aprendizado por reforço puro (RL): o DeepSeek-R1-Zero mostra que o raciocínio pode emergir como comportamento por meio de RL puro. Usa recompensa por precisão e recompensa por formato para fazer o modelo desenvolver técnicas básicas de raciocínio.
Ajuste fino supervisionado (SFT) e aprendizado por reforço (RL): o DeepSeek-R1 melhora o desempenho de raciocínio ao combinar SFT e RL. Essa é uma abordagem importante para construir modelos de raciocínio de alto desempenho.
Ajuste fino supervisionado (SFT) puro e destilação: a DeepSeek aumenta a eficiência treinando modelos menores. Apesar de menores, eles mostram desempenho relativamente forte em comparação com o DeepSeek-R1-Zero.

Reflexões sobre o DeepSeek R1

O DeepSeek-R1 é fornecido como open source sob a licença MIT, tornando-se um recurso útil para pesquisadores. Em comparação com o o1 da OpenAI, o DeepSeek-R1 é mais eficiente em tempo de inferência. No entanto, como há poucos detalhes sobre o o1 da OpenAI, uma comparação direta é difícil.

Desenvolvimento de modelos de raciocínio com orçamento limitado

A destilação de modelos pode ser uma alternativa com boa relação custo-benefício. A equipe da DeepSeek demonstrou isso com o modelo R1-distilled, que é muito menor que o DeepSeek-R1, mas apresenta forte desempenho de raciocínio.

1 comentários

GN⁺ 2025-02-08

Comentários do Hacker News

Os modelos de raciocínio de LLM tendem a estar excessivamente otimizados para problemas de programação e matemática
- Problemas mal definidos exigem mais raciocínio, e isso precisa ir além da simples ambiguidade da engenharia de software
- Há uma tendência de os LLMs estarem excessivamente ajustados para problemas de matemática e, em outras áreas, não pensarem o suficiente
- Gostaria de aprendizado autônomo e de um interlocutor capaz de entender temas complexos e identificar mal-entendidos
- LLMs conseguem resolver bem problemas de programação, mas estão excessivamente ajustados para puzzles de programação/matemática
É necessária pesquisa sobre treinar LLMs com linguagens formais restritas, e não com linguagem natural
- Há trabalhos de integração entre Lean e ChatGPT, mas não de uma forma liderada por LLMs treinados em linguagem natural
- Imagina-se um sistema capaz de tentar várias abordagens de forma criativa e evitar caminhos errados
O "pensar demais" dos modelos de raciocínio pode ser o próximo grande problema
- Pensar mais profundamente nem sempre é algo bom
O artigo do R1 é fácil de ler, e os resultados falam por si
- Recomenda-se ler os artigos do R1, V3 e DeepSeekMath
Se LLMs realmente "pensam" ou não é uma discussão separada
- A questão de se computadores podem pensar já foi resolvida há muito tempo
Há casos reais em que a IA faz identificação excessiva em imagens médicas
- Os dados de treino a levaram a reconhecer elementos que indicavam câncer
É preciso entender que LLMs não conseguem raciocinar
A alegação de "aha moment" no relatório técnico do DeepSeek-R1 é suspeita
- Ele é baseado no modelo DeepSeek V3 e sofre com pensar demais e problemas de formatação
- A comunidade está tentando reimplementar o pipeline
Há alguns meses, foi proposto no HN um método de refinamento para melhorar LLMs, e isso agora está sendo descrito como "raciocínio"
- Não imaginava que a DeepSeek dominaria o mercado com um método tão simples
- Intuições precisam ser levadas a sério

Análise de LLMs para entender a capacidade de raciocínio

Entendendo: modelos de raciocínio

Pipeline de treinamento do DeepSeek R1

Quatro principais métodos para construir e melhorar modelos de raciocínio

Reflexões sobre o DeepSeek R1

Desenvolvimento de modelos de raciocínio com orçamento limitado

Leituras relacionadas

1 comentários

Comentários do Hacker News