- O Hunyuan-T1 é um modelo MoE Hybrid-Transformer-Mamba de grande escala baseado no TurboS
- Por meio de aprendizado de pós-treinamento em larga escala, expande a capacidade de raciocínio de acordo com as preferências humanas e melhora o desempenho
- A capacidade de processar textos longos do TurboS resolve problemas de perda de contexto e dependência de informações de longa distância
- A arquitetura Mamba otimiza o processamento de sequências longas, permitindo capturar informações de textos extensos com um método de cálculo eficiente
- Nas mesmas condições de implantação, a velocidade de decodificação é 2 vezes maior
- Na etapa de pós-treinamento do modelo, 96,7% de todo o poder computacional foi investido em aprendizado por reforço
- Foram coletados conjuntos de dados com diversos problemas, incluindo matemática, raciocínio lógico, ciência e código, para fortalecer a capacidade de raciocínio do modelo
- O desempenho do modelo foi reforçado por meio de feedback de resposta correta e feedback de usuários em tempo real
- Foi aplicado um método de aprendizado por currículo
- A dificuldade dos dados é aumentada gradualmente, ao mesmo tempo em que se expande o comprimento de contexto do modelo
- Reforço da capacidade de usar tokens com eficiência
- Estratégia de aprendizado por reforço: aplicação das estratégias de reaprendizado de dados e redefinição de política → melhoria de mais de 50% na estabilidade do treinamento
- Sistema de recompensa
- Adoção de um método de autorecompensa → o próprio modelo avalia e pontua suas saídas
- Aplicação de um sistema de recompensa abrangente → reforço da eficiência informacional e dos detalhes de conteúdo do modelo
Avaliação de desempenho em benchmarks
- Excelente desempenho em métricas de raciocínio em chinês e inglês, como MMLU-pro, CEval, AIME e Zebra Logic
- Desempenho equivalente ao DeepSeek R1 ou resultados ligeiramente melhores
- Leva vantagem em criatividade cultural, resumo de texto e capacidade de agente
- Obteve 87,2 pontos na avaliação MMLU-PRO → demonstrou excelente memória e compreensão em 14 áreas, como humanidades, ciências sociais e ciência e tecnologia
- Registrou 69,3 pontos na avaliação GPQA-diamond → confirmou capacidade de resolver problemas de física, química e biologia em nível de doutorado
- Demonstrou forte desempenho em código, matemática e raciocínio lógico
- Obteve 64,9 pontos no LiveCodeBench → confirmou capacidade de escrever e compreender código
- 96,2 pontos no MATH-500 → demonstrou capacidade de resolver problemas matemáticos próxima à do DeepSeek R1
- Obteve 91,9 pontos no ArenaHard → mostrou forte adaptabilidade em várias tarefas de alinhamento, seguimento de instruções e uso de ferramentas
1 comentários
Comentários no Hacker News