DeepScaleR: superando o O1-Preview com um modelo de 1.5B usando RL
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: modelo ajustado com fine-tuning por aprendizado por reforço (RL) a partir do Deepseek-R1-Distilled-Qwen-1.5B
- Atingiu 43,1% de precisão Pass@1 no AIME2024 (+14,3% em relação ao modelo base),
→ superando o desempenho do OpenAIo1-preview! - Treinado com 3.800 horas de GPU A100 (US$ 4.500) → escalonamento de RL 18,42 vezes mais eficiente em comparação com 70.000 horas de GPU A100
- Dataset, código e logs de treinamento disponibilizados como open source → qualquer pessoa pode experimentar expansão de inteligência com RL
Fortalecendo modelos pequenos com RL
- O Deepseek-R1 é um modelo open source comparável ao OpenAI
o1, mas seu processo exato de treinamento não foi divulgado - O estudo investiga como desenvolver modelos de raciocínio poderosos com pouco poder computacional usando RL
- A maior limitação do RL tradicional é o alto custo:
→ reproduzir os experimentos doDeepseek-R1exige pelo menos 70.000 horas de GPU A100 - Solução:
- uso de um modelo de destilação de conhecimento (distillation) de alto desempenho
- introdução da técnica "Iterative Lengthening" para expandir o RL gradualmente → reduzindo o custo computacional para 3.800 horas de GPU A100
Construção do dataset
-
Uso dos datasets AIME (1984-2023) + AMC (antes de 2023) + Omni-MATH + Still
-
Processo de limpeza dos dados:
- Extração da resposta: uso do
gemini-1.5-pro-002para extrair respostas das soluções oficiais - Remoção de duplicatas: eliminação de problemas semelhantes com base em embeddings
sentence-transformers/all-MiniLM-L6-v2 - Filtragem de problemas não avaliáveis: remoção de problemas difíceis de avaliar automaticamente com
sympy
- Extração da resposta: uso do
-
Ao final, foram obtidos 40.000 pares problema-resposta, com expansão futura planejada
Função de recompensa (Reward Function)
-
Assim como no Deepseek-R1, foi aplicado o "Outcome Reward Model (ORM)":
1 ponto: resposta correta no formato adequado (passando na validação dosympy)0 ponto: resposta incorreta ou erro de formato (como ausência de<think>...</think>)
-
Motivo para não usar "Process Reward Model (PRM)":
- prevenir reward hacking → evitar o efeito colateral de o modelo apenas seguir o formato
"Iterative Lengthening": técnica para expandir o treinamento de RL em etapas
Etapa 1: iniciar o treinamento de RL com contexto de 8K
- Motivo:
- respostas erradas têm em média 20.346 tokens, enquanto respostas corretas têm 6.395 tokens → respostas longas aumentam a chance de erro
- treinar com contexto longo desde o início é ineficiente → primeiro otimiza em 8K
- Resultado:
- Pass@1 no AIME passou de 28,9% para 33,9% (+5%)
- redução de tokens desnecessários → queda média de 10.484 tokens no comprimento das respostas
Etapa 2: expandir para contexto de 16K
- Após 1.000 steps de treinamento, o modelo mostrou tendência a pensar (raciocinar) por mais tempo
- Porém, o limite de 8K restringia o efeito do treinamento → expansão para 16K
- Vantagens:
- mais de 2 vezes mais rápido do que treinar com 16K desde o começo (evitando que o comprimento médio das respostas vá de 3.000 para 9.000 tokens)
- precisão de 38% no AIME2024
Etapa 3: "24K Magic" - melhoria final de desempenho
- Em 16K, o desempenho estagnou → última expansão para contexto de 24K
- Como resultado, a precisão Pass@1 no AIME2024 chegou a 43,1%, superando o OpenAI
o1-preview!
Resultados finais da avaliação
- O modelo DeepScaleR foi avaliado em vários benchmarks matemáticos, incluindo AIME, MATH 500, AMC 2023, Minerva Math e OlympiadBench
- No AIME2024, o DeepScaleR-1.5B-Preview alcançou 43,1% de precisão, superando o modelo OpenAI
o1-preview - Em MATH 500, AMC 2023 e outros, apesar de ser um modelo de 1.5B, registrou desempenho equivalente ou superior ao de modelos 7B
- Também mostrou a melhor eficiência quando comparado a pesquisas anteriores (rStar, PRIME, SimpleRL baseados em RL)
Resumo principal (Key Takeaways)
-
É possível escalar RL mesmo em modelos pequenos
- Antes, havia a percepção de que RL só era eficaz em modelos grandes
- Mas modelos pequenos ajustados com dados de alta qualidade também podem aprender forte capacidade de raciocínio via RL
- O DeepScaleR melhorou de 28,9% para 43,1% (precisão no AIME)
-
A técnica "Iterative Lengthening" permite expansão de comprimento de forma eficaz
- Pesquisas anteriores relataram ganhos mínimos acima de 16K de contexto
- A expansão gradual de 8K → 16K → 24K maximizou o desempenho
Conclusão: a democratização do escalonamento de RL
- O DeepScaleR-1.5B-Preview é o primeiro modelo open source com RL a superar o O1-preview
- Mesmo com apenas 3.800 horas de GPU A100 (US$ 4.500), é possível construir um modelo de alto desempenho → prova do potencial de pesquisas de RL de baixo custo
- O avanço de modelos de raciocínio baseados em RL continuará em colaboração com a comunidade open source
🔗 Materiais open source:
1 comentários
Opiniões no Hacker News