Treinando diretamente um modelo nível O1 Preview por menos de US$ 450

(sky.cs.berkeley.edu)

1 pontos por GN⁺ 2025-02-22 | 1 comentários | Compartilhar no WhatsApp

O projeto Sky-T1, da equipe NovaSky da UC Berkeley, destaca que é possível treinar diretamente um modelo de raciocínio no nível do O1 Preview por menos de US$ 450
o1 e Gemini 2.0 Flash Thinking mostram forte desempenho de raciocínio em tarefas complexas ao usar longas cadeias internas de pensamento
Como detalhes técnicos e pesos desses modelos não são públicos, fica difícil para a academia e a comunidade open source reproduzi-los e expandi-los
Houve tentativas com modelos de raciocínio de pesos abertos, como Still-2 e Journey, mas elas se concentravam principalmente no domínio da matemática
A equipe NovaSky apresenta como diferencial do Sky-T1 o fato de ter alcançado desempenho competitivo de raciocínio tanto em matemática quanto em código com o mesmo modelo

O problema que o Sky-T1 pretende atacar

O Sky-T1 é um projeto divulgado pela equipe NovaSky do UC Berkeley Sky Computing Lab e coloca em destaque a proposta de treinar diretamente um modelo O1 Preview por menos de US$ 450
Modelos especializados em raciocínio, como o o1 e o Gemini 2.0 Flash Thinking, demonstram a capacidade de gerar longas cadeias internas de pensamento ao resolver tarefas complexas
No entanto, como não há acesso aos detalhes técnicos e aos pesos dos modelos dessa linha, a academia e a comunidade open source têm dificuldade de participar diretamente

Linha de modelos de raciocínio com pesos abertos e diferencial

Surgiram tentativas de treinar modelos de raciocínio com pesos abertos, como Still-2 e Journey, e elas focavam no domínio da matemática
A equipe NovaSky explora métodos para melhorar a capacidade de raciocínio em modelos base e modelos ajustados com instruções
O trabalho do Sky-T1 enfatiza que alcançou desempenho competitivo de raciocínio no mesmo modelo não só em matemática, mas também em código

1 comentários

GN⁺ 2025-02-22

Comentários do Hacker News

Se houver interesse, deixei pronto um notebook do Colab com GPU gratuita
É um notebook para treinar um modelo de raciocínio do zero com GRPO, o algoritmo usado pela DeepSeek, e um notebook de fine-tuning geral usado pela equipe de Berkeley
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
Dataset de 17K da equipe de Berkeley: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k A Hugging Face também publicou um dataset de 220K: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- Fiquei curioso para saber quanto tempo isso levaria no T4 da camada gratuita
  Normalmente eu acharia bem mais difícil para um programador comum acessar esse tipo de trabalho de “mexer por dentro”, mas isso parece estar num nível que dá vontade de experimentar
Achei estranho colocarem O1 preview no nome, parece clickbait
Eu esperava algo como um jeito de retreinar de fato o o1 preview e baixar o resultado
E também não faz sentido chamar isso de O1 preview olhando só para 7 benchmarks. Em alguns casos de uso, o O1 preview pode se sair melhor do que esse modelo
Ainda assim, é ótimo ver os custos caindo
- Como não se refere nem a um modelo específico, mas diretamente à versão beta daquele modelo, eu diria que isso não é honesto. Não entendo por que fariam isso
- Concordo. O nome O1 preview é um pouco enganoso
  Ele faz esperar um desempenho mais amplo, para além de só superar alguns benchmarks específicos. A redução de custo é legal, mas o marketing deveria mostrar com mais transparência qual é o escopo
Competição é realmente algo muito bom
Só porque alguém abriu a arquitetura, tivemos uma enxurrada de avanços nas últimas semanas
Isso faz imaginar até onde poderíamos ir se até os datasets de treinamento fossem abertos e não ficassem presos à lei de direitos autorais. Não estou defendendo nada ilegal
Acho que só dá para sonhar mesmo
- “Enxurrada de avanços” descreve bem a situação. Principalmente depois que ficou mais claro com o que a Meta treinou os modelos :)
- Esses datasets de treinamento quase sempre são protegidos por direitos autorais, então nunca vão ser realmente livres
- Esse movimento já estava acontecendo, e a DeepSeek parece ser apenas um exemplo disso
  Mas ela chamou atenção para esse avanço, e com isso mais gente passou a contribuir e a encontrar casos de uso mais nichados
- O clima hoje em dia não é basicamente: se você tiver a startup mais quente do momento, pode simplesmente violar a lei e subornar funcionários públicos? /s
  Complementando o /s, certa vez eu morei no exterior e operava o cassino de Bitcoin mais popular daquela época, e gastávamos uma quantidade enorme de dinheiro e energia tentando bloquear jogadores que pudessem ser americanos. Por isso, não ganhávamos tanto dinheiro assim
  Eu cheguei a calcular quanto teria que ganhar para violar a lei e viver escondido para sempre, e achei que algo entre US$ 10 milhões e US$ 15 milhões por ano seria possível, mas ainda insuficiente para se esconder. Acho que estraguei tudo
  O homem mais rico do mundo ganhou a maior parte do dinheiro no começo intermediando transações de jogos de azar e agora está se metendo em todas as agências federais. Acho que eu deveria ter tido a coragem de pedir perdão em vez de permissão
Em implantações reais de IA, a computação em tempo de inferência ainda é muito subutilizada
Muita gente está tentando criar modelos-base que consigam raciocinar sobre um espaço amplo de problemas, mas ainda não há gente suficiente aplicando essas mesmas técnicas para melhorar o desempenho em tarefas específicas
É fácil destilar o raciocínio de modelos maiores, como o R1, para uma tarefa específica. Indo além, se você misturar instruções de pensamento personalizadas para certos subproblemas, o modelo ajustado por fine-tuning aprende ao mesmo tempo o raciocínio da tarefa e a lógica sob medida
Não é difícil e supera com facilidade a simples iteração de prompts. E, se você encontrar bugs, pode corrigi-los
Criei um projeto no GitHub para destilação de modelos de raciocínio e fine-tuning em tempo de inferência com processos de pensamento personalizados: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- Tenho curiosidade sobre como montar dados de fine-tuning não para uma tarefa isolada, mas para uma faixa flexível de consultas dentro de um domínio específico
  Seria parecido com tuning de instruções mais geral, mas com um foco bem mais estreito
  Por exemplo, imagine criar um app em que médicos consultem literatura científica para apoiar diagnósticos e verificar hipóteses; naturalmente, seria preciso contar com especialistas do domínio e usuários reais para entender que tipo de consulta criar
  Mas, depois disso, o processo de chegar a um dataset equilibrado que represente suficientemente a distribuição possível de consultas, instruções, estilos de escrita e cognitivos, formatos, fluxos de conversa etc. parece difícil de abordar. Parece haver infinitas dimensões em que se pode acabar fazendo overfitting sem querer
O post do blog estava um pouco confuso, então foi assim que eu entendi
Eles usaram o QwQ para gerar os dados de treinamento e fizeram parte da limpeza com GPT-4o-mini. Depois, fizeram fine-tuning do Qwen2.5-32B-Instruct, que é um modelo sem raciocínio, usando esses dados de treinamento
No fim, o Sky-T1 fica um pouco abaixo do QwQ em tarefas de raciocínio, mas muito acima do Qwen2.5
Vejo algumas reações depreciativas, mas acho isso bem interessante por mostrar que é possível pegar um modelo-base e, com fine-tuning, fazê-lo raciocinar melhor
- Teria sido bom comparar também com os modelos destilados r1 do qwen2.5
Isso não foi treinado do zero, e sim um fine-tuning, então parece uma proposta bem mais razoável
Mesmo eu não estando tão mergulhado nessa área, para quem tinha curiosidade sobre os detalhes de fine-tuning, é legal poder acessar tanto o dataset quanto o código
URL melhor: https://novasky-ai.github.io/posts/sky-t1/
- A discussão anterior está aqui: https://news.ycombinator.com/item?id=42681417
Foi treinado com os rastros de raciocínio do QwQ e, na avaliação, em geral fica um pouco abaixo do QwQ
Não parece uma conquista tão enorme assim
A parte central parece ser: “O treinamento do modelo termina em 19 horas em 8 H100s com offloading DeepSpeed Zero-3, ao custo de cerca de US$ 450 segundo os preços da Lambda Cloud”

Treinando diretamente um modelo nível O1 Preview por menos de US$ 450

O problema que o Sky-T1 pretende atacar

Linha de modelos de raciocínio com pesos abertos e diferencial

Leituras relacionadas

1 comentários

Comentários do Hacker News