5 pontos por GN⁺ 2025-02-12 | 1 comentários | Compartilhar no WhatsApp
  • DeepScaleR-1.5B-Preview: modelo ajustado com fine-tuning por aprendizado por reforço (RL) a partir do Deepseek-R1-Distilled-Qwen-1.5B
  • Atingiu 43,1% de precisão Pass@1 no AIME2024 (+14,3% em relação ao modelo base),
    → superando o desempenho do OpenAI o1-preview!
  • Treinado com 3.800 horas de GPU A100 (US$ 4.500) → escalonamento de RL 18,42 vezes mais eficiente em comparação com 70.000 horas de GPU A100
  • Dataset, código e logs de treinamento disponibilizados como open source → qualquer pessoa pode experimentar expansão de inteligência com RL

Fortalecendo modelos pequenos com RL

  • O Deepseek-R1 é um modelo open source comparável ao OpenAI o1, mas seu processo exato de treinamento não foi divulgado
  • O estudo investiga como desenvolver modelos de raciocínio poderosos com pouco poder computacional usando RL
  • A maior limitação do RL tradicional é o alto custo:
    → reproduzir os experimentos do Deepseek-R1 exige pelo menos 70.000 horas de GPU A100
  • Solução:
    • uso de um modelo de destilação de conhecimento (distillation) de alto desempenho
    • introdução da técnica "Iterative Lengthening" para expandir o RL gradualmente → reduzindo o custo computacional para 3.800 horas de GPU A100

Construção do dataset

  • Uso dos datasets AIME (1984-2023) + AMC (antes de 2023) + Omni-MATH + Still

  • Processo de limpeza dos dados:

    1. Extração da resposta: uso do gemini-1.5-pro-002 para extrair respostas das soluções oficiais
    2. Remoção de duplicatas: eliminação de problemas semelhantes com base em embeddings sentence-transformers/all-MiniLM-L6-v2
    3. Filtragem de problemas não avaliáveis: remoção de problemas difíceis de avaliar automaticamente com sympy
  • Ao final, foram obtidos 40.000 pares problema-resposta, com expansão futura planejada

Função de recompensa (Reward Function)

  • Assim como no Deepseek-R1, foi aplicado o "Outcome Reward Model (ORM)":

    • 1 ponto: resposta correta no formato adequado (passando na validação do sympy)
    • 0 ponto: resposta incorreta ou erro de formato (como ausência de <think>...</think>)
  • Motivo para não usar "Process Reward Model (PRM)":

    • prevenir reward hacking → evitar o efeito colateral de o modelo apenas seguir o formato

"Iterative Lengthening": técnica para expandir o treinamento de RL em etapas

Etapa 1: iniciar o treinamento de RL com contexto de 8K

  • Motivo:
    • respostas erradas têm em média 20.346 tokens, enquanto respostas corretas têm 6.395 tokens → respostas longas aumentam a chance de erro
    • treinar com contexto longo desde o início é ineficiente → primeiro otimiza em 8K
  • Resultado:
    • Pass@1 no AIME passou de 28,9% para 33,9% (+5%)
    • redução de tokens desnecessários → queda média de 10.484 tokens no comprimento das respostas

Etapa 2: expandir para contexto de 16K

  • Após 1.000 steps de treinamento, o modelo mostrou tendência a pensar (raciocinar) por mais tempo
  • Porém, o limite de 8K restringia o efeito do treinamento → expansão para 16K
  • Vantagens:
    • mais de 2 vezes mais rápido do que treinar com 16K desde o começo (evitando que o comprimento médio das respostas vá de 3.000 para 9.000 tokens)
    • precisão de 38% no AIME2024

Etapa 3: "24K Magic" - melhoria final de desempenho

  • Em 16K, o desempenho estagnou → última expansão para contexto de 24K
  • Como resultado, a precisão Pass@1 no AIME2024 chegou a 43,1%, superando o OpenAI o1-preview!

Resultados finais da avaliação

  • O modelo DeepScaleR foi avaliado em vários benchmarks matemáticos, incluindo AIME, MATH 500, AMC 2023, Minerva Math e OlympiadBench
  • No AIME2024, o DeepScaleR-1.5B-Preview alcançou 43,1% de precisão, superando o modelo OpenAI o1-preview
  • Em MATH 500, AMC 2023 e outros, apesar de ser um modelo de 1.5B, registrou desempenho equivalente ou superior ao de modelos 7B
  • Também mostrou a melhor eficiência quando comparado a pesquisas anteriores (rStar, PRIME, SimpleRL baseados em RL)

Resumo principal (Key Takeaways)

  1. É possível escalar RL mesmo em modelos pequenos

    • Antes, havia a percepção de que RL só era eficaz em modelos grandes
    • Mas modelos pequenos ajustados com dados de alta qualidade também podem aprender forte capacidade de raciocínio via RL
    • O DeepScaleR melhorou de 28,9% para 43,1% (precisão no AIME)
  2. A técnica "Iterative Lengthening" permite expansão de comprimento de forma eficaz

    • Pesquisas anteriores relataram ganhos mínimos acima de 16K de contexto
    • A expansão gradual de 8K → 16K → 24K maximizou o desempenho

Conclusão: a democratização do escalonamento de RL

  • O DeepScaleR-1.5B-Preview é o primeiro modelo open source com RL a superar o O1-preview
  • Mesmo com apenas 3.800 horas de GPU A100 (US$ 4.500), é possível construir um modelo de alto desempenho → prova do potencial de pesquisas de RL de baixo custo
  • O avanço de modelos de raciocínio baseados em RL continuará em colaboração com a comunidade open source

🔗 Materiais open source:

1 comentários

 
GN⁺ 2025-02-12
Opiniões no Hacker News
  • Este modelo foi ajustado para benchmarks a fim de resolver um problema específico e, em outras tarefas, tem desempenho inferior ao O1-Preview. A menos que você queira resolver exatamente esse problema, não vale muita atenção. Ainda assim, continua sendo impressionante
  • Modelos de reforço pequenos vão vencer. Olhe para nossa civilização, empresas e equipes: há muitas pessoas especializadas, não um único gênio inflado
  • O problema é a ênfase excessiva nos benchmarks atuais. O ideal seria fazer benchmark em relação aos KPIs dos usuários
  • O importante é uma fórmula simples e confiável para treinar um modelo de 1B capaz de apresentar desempenho forte em tarefas específicas. Antes, isso não existia. Os dispositivos de borda vão ficar muito mais inteligentes
  • Talvez eu seja muito ingênuo, mas alguém confia nesses benchmarks? Eles têm algum significado? Parece que são fáceis demais de manipular e não parecem um jeito preciso de saber como os modelos realmente se comparam. Quando se introduzem problemas parecidos com os benchmarks, mas que o modelo nunca viu, o desempenho parece cair bastante
  • Existe algum prompt simples e bom para testar esses novos modelos de "raciocínio"? "Conte a letra R na palavra strawberry" já ficou meio sem graça
  • Estou testando isso localmente com Ollama e a menor versão quantizada em GGUF (769MB)
  • Depois de verificar a resposta obtida aqui: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52, consegui chegar à resposta correta. Mas cometi um erro importante no começo
  • Modelos CoT conseguem chamar funções externas? E se tivessem acesso a uma calculadora?
  • Seria muito bom se pudéssemos obter modelos sem censura dessa forma
  • Na verdade é bem tolo. Pedi para decodificar uma sequência ASCII e ele deu uma resposta sem sentido. Tentei o phi-4 Q4 e ele acertou. 9GB contra 2GB (inferência). Parece que não dá para colocar informação suficiente em 2GB, então fora resolver problemas matemáticos comuns ou saber o que havia nos dados de treino, não deve ser muito útil
  • Na universidade, isso honestamente era chamado de overfitting. Não parece funcionar bem fora do conjunto de avaliação