- O Sky-T1-32B-Preview é um modelo de raciocínio e programação com desempenho em nível semelhante ao o1-preview, treinado com um custo baixo de apenas US$ 450 (cerca de 650 mil won)
- Todo o código é fornecido como open source, permitindo que qualquer pessoa reproduza e melhore o modelo
- Modelos de raciocínio de alto desempenho como o o1 e o Gemini 2.0 conseguem resolver tarefas complexas, mas seus detalhes técnicos e pesos do modelo permanecem fechados ao público
Open source completo: evoluindo juntos
- O Sky-T1-32B-Preview disponibiliza em open source todos os detalhes:
Como fazer (Recipes)
Processo de preparação dos dados
- Os dados foram gerados usando o modelo QwQ-32B-Preview, com uma composição que cobre diversos domínios
- Reestruturação e melhoria de formatação:
- Os dados do QwQ foram reformatados com o GPT-4o-mini para aumentar a eficiência de aprendizado do modelo de raciocínio
- A reformatação elevou a precisão dos dados de programação de 25% para mais de 90%
- Rejection sampling:
- Problemas de matemática: remoção de amostras imprecisas por comparação com a resposta correta
- Problemas de programação: execução dos testes unitários do dataset para validar as respostas
- Dados finais:
- Dados de programação: 5.000 exemplos dos datasets APPs e TACO
- Dados de matemática: 10.000 exemplos de AIME, MATH e Olympiads do NuminaMATH
- Outros dados: 1.000 problemas de ciência e puzzles
Processo de treinamento
- Modelo treinado: Qwen2.5-32B-Instruct (modelo open source sem capacidade de raciocínio)
- Ambiente de treinamento:
- Uso de 8 GPUs H100 com offloading DeepSpeed Zero-3
- Tempo de treinamento: 19 horas
- Custo: cerca de US$ 450 (com base na Lambda Cloud)
- O treinamento foi realizado com Llama-Factory
Avaliação e resumo dos resultados
- O Sky-T1-32B-Preview apresentou o seguinte desempenho em comparação com modelos concorrentes em vários benchmarks:
- Math500: Sky-T1 alcançou 82,4%, praticamente no mesmo nível do o1-preview (81,4%) e muito à frente do Qwen-2.5 (76,2%)
- AIME2024: Sky-T1 marcou 43,3%, acima do o1-preview (40,0%) e muito superior ao Qwen-2.5 (16,7%)
- LiveCodeBench (Easy): Sky-T1 obteve 86,3%, semelhante ao Qwen-2.5 (84,6%), com pequena diferença em relação ao o1-preview (92,9%)
- LiveCodeBench (Medium): Sky-T1 registrou 56,8%, acima do o1-preview (54,9%) e muito à frente do Qwen-2.5 (40,8%)
- LiveCodeBench (Hard): Sky-T1 alcançou 17,9%, superando ligeiramente o o1-preview (16,3%) e abrindo grande vantagem sobre o Qwen-2.5 (9,8%)
- GPQA-Diamond: Sky-T1 marcou 56,8%, um pouco à frente do QwQ (52,5%), mas abaixo do o1-preview (75,2%)
- O Sky-T1-32B-Preview mostra forte desempenho tanto em matemática quanto em programação, destacando-se especialmente em tarefas de programação de dificuldade intermediária
- Também figura entre os melhores nos benchmarks relacionados à matemática, demonstrando ser um modelo eficiente e poderoso de forma geral.
Principais descobertas
- Importância do tamanho do modelo:
- Modelos de 7B e 14B mostraram apenas melhorias limitadas
- O modelo de 32B foi muito superior em desempenho e consistência dos resultados
- Importância da mistura de dados:
- Treinar com dados de um único domínio pode degradar o desempenho
- A combinação equilibrada de dados de matemática e programação permitiu excelente desempenho em ambos os domínios
Planos futuros
- Foco no desenvolvimento de modelos que mantenham a eficiência e ofereçam alto desempenho em raciocínio
- Pesquisa em técnicas avançadas para melhorar a eficiência e a precisão no tempo de teste
- Objetivo de desenvolver modelos mais avançados em colaboração com a comunidade
1 comentários
Por quê... por que eu continuo lendo isso como SKT-T1?