Sky-T1: treinando um modelo de raciocínio de alto desempenho no nível do o1 preview por US$ 450

xguru · 2025-01-17T09:45:03+09:00

O Sky-T1-32B-Preview é um modelo de raciocínio e programação com desempenho em nível semelhante ao o1-preview, treinado com um custo baixo de apenas US$ 450 (cerca de 650 mil won) Todo o código é fornecido como open source, permitindo que qualquer pessoa reproduza e melhore o modelo Modelos de raciocínio de alto desempenho como o o1 e o Gemini 2.0 conseguem resolver tarefas complexas, mas seus detalhes técnicos e pesos do modelo permanecem fechados ao público Open source completo: evoluindo juntos O Sky-T1-32B-Preview disponibiliza em open source todos os detalhes: Infraestrutura: repositório unificado para construção de dados, treinamento de modelos e avaliação Dados: fornece 17.000 exemplos de treinamento Detalhes técnicos: relatório técnico e logs do wandb Pesos do modelo: pesos de um modelo de 32B Como fazer (Recipes) Processo de preparação dos dados Os dados foram gerados usando o modelo QwQ-32B-Preview, com uma composição que cobre diversos domínios Reestruturação e melhoria de formatação: Os dados do QwQ foram reformatados com o GPT-4o-mini para aumentar a eficiência de aprendizado do modelo de raciocínio A reformatação elevou a precisão dos dados de programação de 25% para mais de 90% Rejection sampling: Problemas de matemática: remoção de amostras imprecisas por comparação com a resposta correta Problemas de programação: execução dos testes unitários do dataset para validar as respostas Dados finais: Dados de programação: 5.000 exemplos dos datasets APPs e TACO Dados de matemática: 10.000 exemplos de AIME, MATH e Olympiads do NuminaMATH Outros dados: 1.000 problemas de ciência e puzzles Processo de treinamento Modelo treinado: Qwen2.5-32B-Instruct (modelo open source sem capacidade de raciocínio) Ambiente de treinamento: Uso de 8 GPUs H100 com offloading DeepSpeed Zero-3 Tempo de treinamento: 19 horas Custo: cerca de US$ 450 (com base na Lambda Cloud) O treinamento foi realizado com Llama-Factory Avaliação e resumo dos resultados O Sky-T1-32B-Preview apresentou o seguinte desempenho em comparação com modelos concorrentes em vários benchmarks: Math500: Sky-T1 alcançou 82,4%, praticamente no mesmo nível do o1-preview (81,4%) e muito à frente do Qwen-2.5 (76,2%) AIME2024: Sky-T1 marcou 43,3%, acima do o1-preview (40,0%) e muito superior ao Qwen-2.5 (16,7%) LiveCodeBench (Easy): Sky-T1 obteve 86,3%, semelhante ao Qwen-2.5 (84,6%), com pequena diferença em relação ao o1-preview (92,9%) LiveCodeBench (Medium): Sky-T1 registrou 56,8%, acima do o1-preview (54,9%) e muito à frente do Qwen-2.5 (40,8%) LiveCodeBench (Hard): Sky-T1 alcançou 17,9%, superando ligeiramente o o1-preview (16,3%) e abrindo grande vantagem sobre o Qwen-2.5 (9,8%) GPQA-Diamond: Sky-T1 marcou 56,8%, um pouco à frente do QwQ (52,5%), mas abaixo do o1-preview (75,2%) O Sky-T1-32B-Preview mostra forte desempenho tanto em matemática quanto em programação, destacando-se especialmente em tarefas de programação de dificuldade intermediária Também figura entre os melhores nos benchmarks relacionados à matemática, demonstrando ser um modelo eficiente e poderoso de forma geral. Principais descobertas Importância do tamanho do modelo: Modelos de 7B e 14B mostraram apenas melhorias limitadas O modelo de 32B foi muito superior em desempenho e consistência dos resultados Importância da mistura de dados: Treinar com dados de um único domínio pode degradar o desempenho A combinação equilibrada de dados de matemática e programação permitiu excelente desempenho em ambos os domínios Planos futuros Foco no desenvolvimento de modelos que mantenham a eficiência e ofereçam alto desempenho em raciocínio Pesquisa em técnicas avançadas para melhorar a eficiência e a precisão no tempo de teste Objetivo de desenvolver modelos mais avançados em colaboração com a comunidade

(novasky-ai.github.io)

22 pontos por xguru 2025-01-17 | 1 comentários | Compartilhar no WhatsApp

O Sky-T1-32B-Preview é um modelo de raciocínio e programação com desempenho em nível semelhante ao o1-preview, treinado com um custo baixo de apenas US$ 450 (cerca de 650 mil won)
Todo o código é fornecido como open source, permitindo que qualquer pessoa reproduza e melhore o modelo
- Modelos de raciocínio de alto desempenho como o o1 e o Gemini 2.0 conseguem resolver tarefas complexas, mas seus detalhes técnicos e pesos do modelo permanecem fechados ao público

Open source completo: evoluindo juntos

O Sky-T1-32B-Preview disponibiliza em open source todos os detalhes:
- Infraestrutura: repositório unificado para construção de dados, treinamento de modelos e avaliação
- Dados: fornece 17.000 exemplos de treinamento
- Detalhes técnicos: relatório técnico e logs do wandb
- Pesos do modelo: pesos de um modelo de 32B

Como fazer (Recipes)

Processo de preparação dos dados

Os dados foram gerados usando o modelo QwQ-32B-Preview, com uma composição que cobre diversos domínios
Reestruturação e melhoria de formatação:
- Os dados do QwQ foram reformatados com o GPT-4o-mini para aumentar a eficiência de aprendizado do modelo de raciocínio
- A reformatação elevou a precisão dos dados de programação de 25% para mais de 90%
Rejection sampling:
- Problemas de matemática: remoção de amostras imprecisas por comparação com a resposta correta
- Problemas de programação: execução dos testes unitários do dataset para validar as respostas
Dados finais:
- Dados de programação: 5.000 exemplos dos datasets APPs e TACO
- Dados de matemática: 10.000 exemplos de AIME, MATH e Olympiads do NuminaMATH
- Outros dados: 1.000 problemas de ciência e puzzles

Processo de treinamento

Modelo treinado: Qwen2.5-32B-Instruct (modelo open source sem capacidade de raciocínio)
Ambiente de treinamento:
- Uso de 8 GPUs H100 com offloading DeepSpeed Zero-3
- Tempo de treinamento: 19 horas
- Custo: cerca de US$ 450 (com base na Lambda Cloud)
O treinamento foi realizado com Llama-Factory

Avaliação e resumo dos resultados

O Sky-T1-32B-Preview apresentou o seguinte desempenho em comparação com modelos concorrentes em vários benchmarks:
- Math500: Sky-T1 alcançou 82,4%, praticamente no mesmo nível do o1-preview (81,4%) e muito à frente do Qwen-2.5 (76,2%)
- AIME2024: Sky-T1 marcou 43,3%, acima do o1-preview (40,0%) e muito superior ao Qwen-2.5 (16,7%)
- LiveCodeBench (Easy): Sky-T1 obteve 86,3%, semelhante ao Qwen-2.5 (84,6%), com pequena diferença em relação ao o1-preview (92,9%)
- LiveCodeBench (Medium): Sky-T1 registrou 56,8%, acima do o1-preview (54,9%) e muito à frente do Qwen-2.5 (40,8%)
- LiveCodeBench (Hard): Sky-T1 alcançou 17,9%, superando ligeiramente o o1-preview (16,3%) e abrindo grande vantagem sobre o Qwen-2.5 (9,8%)
- GPQA-Diamond: Sky-T1 marcou 56,8%, um pouco à frente do QwQ (52,5%), mas abaixo do o1-preview (75,2%)
O Sky-T1-32B-Preview mostra forte desempenho tanto em matemática quanto em programação, destacando-se especialmente em tarefas de programação de dificuldade intermediária
Também figura entre os melhores nos benchmarks relacionados à matemática, demonstrando ser um modelo eficiente e poderoso de forma geral.

Principais descobertas

Importância do tamanho do modelo:
- Modelos de 7B e 14B mostraram apenas melhorias limitadas
- O modelo de 32B foi muito superior em desempenho e consistência dos resultados
Importância da mistura de dados:
- Treinar com dados de um único domínio pode degradar o desempenho
- A combinação equilibrada de dados de matemática e programação permitiu excelente desempenho em ambos os domínios

Planos futuros

Foco no desenvolvimento de modelos que mantenham a eficiência e ofereçam alto desempenho em raciocínio
Pesquisa em técnicas avançadas para melhorar a eficiência e a precisão no tempo de teste
Objetivo de desenvolver modelos mais avançados em colaboração com a comunidade

1 comentários

kimjoin2 2025-01-17

Por quê... por que eu continuo lendo isso como SKT-T1?