DeepScaleR: superando o O1-Preview com um modelo de 1.5B usando RL

(pretty-radio-b75.notion.site)

5 pontos por GN⁺ 2025-02-12 | 1 comentários | Compartilhar no WhatsApp

DeepScaleR-1.5B-Preview: modelo ajustado com fine-tuning por aprendizado por reforço (RL) a partir do Deepseek-R1-Distilled-Qwen-1.5B
Atingiu 43,1% de precisão Pass@1 no AIME2024 (+14,3% em relação ao modelo base),
→ superando o desempenho do OpenAI o1-preview!
Treinado com 3.800 horas de GPU A100 (US$ 4.500) → escalonamento de RL 18,42 vezes mais eficiente em comparação com 70.000 horas de GPU A100
Dataset, código e logs de treinamento disponibilizados como open source → qualquer pessoa pode experimentar expansão de inteligência com RL

Fortalecendo modelos pequenos com RL

O Deepseek-R1 é um modelo open source comparável ao OpenAI o1, mas seu processo exato de treinamento não foi divulgado
O estudo investiga como desenvolver modelos de raciocínio poderosos com pouco poder computacional usando RL
A maior limitação do RL tradicional é o alto custo:
→ reproduzir os experimentos do Deepseek-R1 exige pelo menos 70.000 horas de GPU A100
Solução:
- uso de um modelo de destilação de conhecimento (distillation) de alto desempenho
- introdução da técnica "Iterative Lengthening" para expandir o RL gradualmente → reduzindo o custo computacional para 3.800 horas de GPU A100

Construção do dataset

Uso dos datasets AIME (1984-2023) + AMC (antes de 2023) + Omni-MATH + Still
Processo de limpeza dos dados:
1. Extração da resposta: uso do gemini-1.5-pro-002 para extrair respostas das soluções oficiais
2. Remoção de duplicatas: eliminação de problemas semelhantes com base em embeddings sentence-transformers/all-MiniLM-L6-v2
3. Filtragem de problemas não avaliáveis: remoção de problemas difíceis de avaliar automaticamente com sympy
Ao final, foram obtidos 40.000 pares problema-resposta, com expansão futura planejada

Função de recompensa (Reward Function)

Assim como no Deepseek-R1, foi aplicado o "Outcome Reward Model (ORM)":
- 1 ponto: resposta correta no formato adequado (passando na validação do sympy)
- 0 ponto: resposta incorreta ou erro de formato (como ausência de <think>...</think>)
Motivo para não usar "Process Reward Model (PRM)":
- prevenir reward hacking → evitar o efeito colateral de o modelo apenas seguir o formato

"Iterative Lengthening": técnica para expandir o treinamento de RL em etapas

Etapa 1: iniciar o treinamento de RL com contexto de 8K

Motivo:
- respostas erradas têm em média 20.346 tokens, enquanto respostas corretas têm 6.395 tokens → respostas longas aumentam a chance de erro
- treinar com contexto longo desde o início é ineficiente → primeiro otimiza em 8K
Resultado:
- Pass@1 no AIME passou de 28,9% para 33,9% (+5%)
- redução de tokens desnecessários → queda média de 10.484 tokens no comprimento das respostas

Etapa 2: expandir para contexto de 16K

Após 1.000 steps de treinamento, o modelo mostrou tendência a pensar (raciocinar) por mais tempo
Porém, o limite de 8K restringia o efeito do treinamento → expansão para 16K
Vantagens:
- mais de 2 vezes mais rápido do que treinar com 16K desde o começo (evitando que o comprimento médio das respostas vá de 3.000 para 9.000 tokens)
- precisão de 38% no AIME2024

Etapa 3: "24K Magic" - melhoria final de desempenho

Em 16K, o desempenho estagnou → última expansão para contexto de 24K
Como resultado, a precisão Pass@1 no AIME2024 chegou a 43,1%, superando o OpenAI o1-preview!

Resultados finais da avaliação

O modelo DeepScaleR foi avaliado em vários benchmarks matemáticos, incluindo AIME, MATH 500, AMC 2023, Minerva Math e OlympiadBench
No AIME2024, o DeepScaleR-1.5B-Preview alcançou 43,1% de precisão, superando o modelo OpenAI o1-preview
Em MATH 500, AMC 2023 e outros, apesar de ser um modelo de 1.5B, registrou desempenho equivalente ou superior ao de modelos 7B
Também mostrou a melhor eficiência quando comparado a pesquisas anteriores (rStar, PRIME, SimpleRL baseados em RL)

Resumo principal (Key Takeaways)

É possível escalar RL mesmo em modelos pequenos
- Antes, havia a percepção de que RL só era eficaz em modelos grandes
- Mas modelos pequenos ajustados com dados de alta qualidade também podem aprender forte capacidade de raciocínio via RL
- O DeepScaleR melhorou de 28,9% para 43,1% (precisão no AIME)
A técnica "Iterative Lengthening" permite expansão de comprimento de forma eficaz
- Pesquisas anteriores relataram ganhos mínimos acima de 16K de contexto
- A expansão gradual de 8K → 16K → 24K maximizou o desempenho

Conclusão: a democratização do escalonamento de RL

O DeepScaleR-1.5B-Preview é o primeiro modelo open source com RL a superar o O1-preview
Mesmo com apenas 3.800 horas de GPU A100 (US$ 4.500), é possível construir um modelo de alto desempenho → prova do potencial de pesquisas de RL de baixo custo
O avanço de modelos de raciocínio baseados em RL continuará em colaboração com a comunidade open source

🔗 Materiais open source:

1 comentários

GN⁺ 2025-02-12

Opiniões no Hacker News

Este modelo foi ajustado para benchmarks a fim de resolver um problema específico e, em outras tarefas, tem desempenho inferior ao O1-Preview. A menos que você queira resolver exatamente esse problema, não vale muita atenção. Ainda assim, continua sendo impressionante
Modelos de reforço pequenos vão vencer. Olhe para nossa civilização, empresas e equipes: há muitas pessoas especializadas, não um único gênio inflado
O problema é a ênfase excessiva nos benchmarks atuais. O ideal seria fazer benchmark em relação aos KPIs dos usuários
O importante é uma fórmula simples e confiável para treinar um modelo de 1B capaz de apresentar desempenho forte em tarefas específicas. Antes, isso não existia. Os dispositivos de borda vão ficar muito mais inteligentes
Talvez eu seja muito ingênuo, mas alguém confia nesses benchmarks? Eles têm algum significado? Parece que são fáceis demais de manipular e não parecem um jeito preciso de saber como os modelos realmente se comparam. Quando se introduzem problemas parecidos com os benchmarks, mas que o modelo nunca viu, o desempenho parece cair bastante
Existe algum prompt simples e bom para testar esses novos modelos de "raciocínio"? "Conte a letra R na palavra strawberry" já ficou meio sem graça
Estou testando isso localmente com Ollama e a menor versão quantizada em GGUF (769MB)
Depois de verificar a resposta obtida aqui: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52, consegui chegar à resposta correta. Mas cometi um erro importante no começo
Modelos CoT conseguem chamar funções externas? E se tivessem acesso a uma calculadora?
Seria muito bom se pudéssemos obter modelos sem censura dessa forma
Na verdade é bem tolo. Pedi para decodificar uma sequência ASCII e ele deu uma resposta sem sentido. Tentei o phi-4 Q4 e ele acertou. 9GB contra 2GB (inferência). Parece que não dá para colocar informação suficiente em 2GB, então fora resolver problemas matemáticos comuns ou saber o que havia nos dados de treino, não deve ser muito útil
Na universidade, isso honestamente era chamado de overfitting. Não parece funcionar bem fora do conjunto de avaliação

DeepScaleR: superando o O1-Preview com um modelo de 1.5B usando RL

Fortalecendo modelos pequenos com RL

Construção do dataset

Função de recompensa (Reward Function)

"Iterative Lengthening": técnica para expandir o treinamento de RL em etapas

Etapa 1: iniciar o treinamento de RL com contexto de 8K

Etapa 2: expandir para contexto de 16K

Etapa 3: "24K Magic" - melhoria final de desempenho

Resultados finais da avaliação

Resumo principal (Key Takeaways)

Conclusão: a democratização do escalonamento de RL

Leituras relacionadas

1 comentários

Opiniões no Hacker News