22 pontos por xguru 2025-01-17 | 1 comentários | Compartilhar no WhatsApp
  • O Sky-T1-32B-Preview é um modelo de raciocínio e programação com desempenho em nível semelhante ao o1-preview, treinado com um custo baixo de apenas US$ 450 (cerca de 650 mil won)
  • Todo o código é fornecido como open source, permitindo que qualquer pessoa reproduza e melhore o modelo
    • Modelos de raciocínio de alto desempenho como o o1 e o Gemini 2.0 conseguem resolver tarefas complexas, mas seus detalhes técnicos e pesos do modelo permanecem fechados ao público

Open source completo: evoluindo juntos

Como fazer (Recipes)

Processo de preparação dos dados

  • Os dados foram gerados usando o modelo QwQ-32B-Preview, com uma composição que cobre diversos domínios
  • Reestruturação e melhoria de formatação:
    • Os dados do QwQ foram reformatados com o GPT-4o-mini para aumentar a eficiência de aprendizado do modelo de raciocínio
    • A reformatação elevou a precisão dos dados de programação de 25% para mais de 90%
  • Rejection sampling:
    • Problemas de matemática: remoção de amostras imprecisas por comparação com a resposta correta
    • Problemas de programação: execução dos testes unitários do dataset para validar as respostas
  • Dados finais:
    • Dados de programação: 5.000 exemplos dos datasets APPs e TACO
    • Dados de matemática: 10.000 exemplos de AIME, MATH e Olympiads do NuminaMATH
    • Outros dados: 1.000 problemas de ciência e puzzles

Processo de treinamento

  • Modelo treinado: Qwen2.5-32B-Instruct (modelo open source sem capacidade de raciocínio)
  • Ambiente de treinamento:
    • Uso de 8 GPUs H100 com offloading DeepSpeed Zero-3
    • Tempo de treinamento: 19 horas
    • Custo: cerca de US$ 450 (com base na Lambda Cloud)
  • O treinamento foi realizado com Llama-Factory

Avaliação e resumo dos resultados

  • O Sky-T1-32B-Preview apresentou o seguinte desempenho em comparação com modelos concorrentes em vários benchmarks:
    • Math500: Sky-T1 alcançou 82,4%, praticamente no mesmo nível do o1-preview (81,4%) e muito à frente do Qwen-2.5 (76,2%)
    • AIME2024: Sky-T1 marcou 43,3%, acima do o1-preview (40,0%) e muito superior ao Qwen-2.5 (16,7%)
    • LiveCodeBench (Easy): Sky-T1 obteve 86,3%, semelhante ao Qwen-2.5 (84,6%), com pequena diferença em relação ao o1-preview (92,9%)
    • LiveCodeBench (Medium): Sky-T1 registrou 56,8%, acima do o1-preview (54,9%) e muito à frente do Qwen-2.5 (40,8%)
    • LiveCodeBench (Hard): Sky-T1 alcançou 17,9%, superando ligeiramente o o1-preview (16,3%) e abrindo grande vantagem sobre o Qwen-2.5 (9,8%)
    • GPQA-Diamond: Sky-T1 marcou 56,8%, um pouco à frente do QwQ (52,5%), mas abaixo do o1-preview (75,2%)
  • O Sky-T1-32B-Preview mostra forte desempenho tanto em matemática quanto em programação, destacando-se especialmente em tarefas de programação de dificuldade intermediária
  • Também figura entre os melhores nos benchmarks relacionados à matemática, demonstrando ser um modelo eficiente e poderoso de forma geral.

Principais descobertas

  • Importância do tamanho do modelo:
    • Modelos de 7B e 14B mostraram apenas melhorias limitadas
    • O modelo de 32B foi muito superior em desempenho e consistência dos resultados
  • Importância da mistura de dados:
    • Treinar com dados de um único domínio pode degradar o desempenho
    • A combinação equilibrada de dados de matemática e programação permitiu excelente desempenho em ambos os domínios

Planos futuros

  • Foco no desenvolvimento de modelos que mantenham a eficiência e ofereçam alto desempenho em raciocínio
  • Pesquisa em técnicas avançadas para melhorar a eficiência e a precisão no tempo de teste
  • Objetivo de desenvolver modelos mais avançados em colaboração com a comunidade

1 comentários

 
kimjoin2 2025-01-17

Por quê... por que eu continuo lendo isso como SKT-T1?