6 pontos por GN⁺ 2025-02-08 | 1 comentários | Compartilhar no WhatsApp

Entendendo: modelos de raciocínio

  • Definição de modelos de raciocínio: modelos de raciocínio são o processo de responder a perguntas que exigem geração em múltiplas etapas, incluindo passos intermediários, para resolver problemas complexos. Por exemplo, uma pergunta como "se um trem viaja a 60 milhas por hora durante 3 horas, quão longe ele vai?" exige raciocínio, ao contrário de uma pergunta simples baseada em fatos.

  • Necessidade de modelos de raciocínio: são adequados para tarefas complexas, como quebra-cabeças, problemas avançados de matemática e problemas complexos de programação. No entanto, não são necessários para tarefas simples, como resumo, tradução e perguntas e respostas baseadas em conhecimento. Modelos de raciocínio têm custo alto e, às vezes, podem gerar erros por pensarem demais.

Pipeline de treinamento do DeepSeek R1

  • DeepSeek-R1-Zero: modelo baseado no DeepSeek-V3 pré-treinado de 671B, treinado apenas com aprendizado por reforço (RL). Isso é chamado de treinamento de "cold start" e, diferentemente do RLHF comum, não há etapa de ajuste fino supervisionado (SFT).

  • DeepSeek-R1: principal modelo de raciocínio da DeepSeek, aprimorado a partir do DeepSeek-R1-Zero com uma etapa adicional de SFT e treinamento com RL.

  • DeepSeek-R1-Distill: melhora a capacidade de raciocínio ao ajustar finamente modelos Qwen e Llama usando os dados de SFT gerados na etapa anterior.

Quatro principais métodos para construir e melhorar modelos de raciocínio

  1. Escalonamento em tempo de inferência: método de melhorar a qualidade da saída aumentando os recursos computacionais durante a inferência. Por exemplo, incluir no prompt frases como "pense passo a passo" induz o modelo a gerar etapas intermediárias de raciocínio.

  2. Aprendizado por reforço puro (RL): o DeepSeek-R1-Zero mostra que o raciocínio pode emergir como comportamento por meio de RL puro. Usa recompensa por precisão e recompensa por formato para fazer o modelo desenvolver técnicas básicas de raciocínio.

  3. Ajuste fino supervisionado (SFT) e aprendizado por reforço (RL): o DeepSeek-R1 melhora o desempenho de raciocínio ao combinar SFT e RL. Essa é uma abordagem importante para construir modelos de raciocínio de alto desempenho.

  4. Ajuste fino supervisionado (SFT) puro e destilação: a DeepSeek aumenta a eficiência treinando modelos menores. Apesar de menores, eles mostram desempenho relativamente forte em comparação com o DeepSeek-R1-Zero.

Reflexões sobre o DeepSeek R1

  • O DeepSeek-R1 é fornecido como open source sob a licença MIT, tornando-se um recurso útil para pesquisadores. Em comparação com o o1 da OpenAI, o DeepSeek-R1 é mais eficiente em tempo de inferência. No entanto, como há poucos detalhes sobre o o1 da OpenAI, uma comparação direta é difícil.

Desenvolvimento de modelos de raciocínio com orçamento limitado

  • A destilação de modelos pode ser uma alternativa com boa relação custo-benefício. A equipe da DeepSeek demonstrou isso com o modelo R1-distilled, que é muito menor que o DeepSeek-R1, mas apresenta forte desempenho de raciocínio.

1 comentários

 
GN⁺ 2025-02-08
Comentários do Hacker News
  • Os modelos de raciocínio de LLM tendem a estar excessivamente otimizados para problemas de programação e matemática

    • Problemas mal definidos exigem mais raciocínio, e isso precisa ir além da simples ambiguidade da engenharia de software
    • Há uma tendência de os LLMs estarem excessivamente ajustados para problemas de matemática e, em outras áreas, não pensarem o suficiente
    • Gostaria de aprendizado autônomo e de um interlocutor capaz de entender temas complexos e identificar mal-entendidos
    • LLMs conseguem resolver bem problemas de programação, mas estão excessivamente ajustados para puzzles de programação/matemática
  • É necessária pesquisa sobre treinar LLMs com linguagens formais restritas, e não com linguagem natural

    • Há trabalhos de integração entre Lean e ChatGPT, mas não de uma forma liderada por LLMs treinados em linguagem natural
    • Imagina-se um sistema capaz de tentar várias abordagens de forma criativa e evitar caminhos errados
  • O "pensar demais" dos modelos de raciocínio pode ser o próximo grande problema

    • Pensar mais profundamente nem sempre é algo bom
  • O artigo do R1 é fácil de ler, e os resultados falam por si

    • Recomenda-se ler os artigos do R1, V3 e DeepSeekMath
  • Se LLMs realmente "pensam" ou não é uma discussão separada

    • A questão de se computadores podem pensar já foi resolvida há muito tempo
  • Há casos reais em que a IA faz identificação excessiva em imagens médicas

    • Os dados de treino a levaram a reconhecer elementos que indicavam câncer
  • É preciso entender que LLMs não conseguem raciocinar

  • A alegação de "aha moment" no relatório técnico do DeepSeek-R1 é suspeita

    • Ele é baseado no modelo DeepSeek V3 e sofre com pensar demais e problemas de formatação
    • A comunidade está tentando reimplementar o pipeline
  • Há alguns meses, foi proposto no HN um método de refinamento para melhorar LLMs, e isso agora está sendo descrito como "raciocínio"

    • Não imaginava que a DeepSeek dominaria o mercado com um método tão simples
    • Intuições precisam ser levadas a sério