2 pontos por GN⁺ 2025-03-23 | 1 comentários | Compartilhar no WhatsApp
  • O Hunyuan-T1 é um modelo MoE Hybrid-Transformer-Mamba de grande escala baseado no TurboS
  • Por meio de aprendizado de pós-treinamento em larga escala, expande a capacidade de raciocínio de acordo com as preferências humanas e melhora o desempenho
  • A capacidade de processar textos longos do TurboS resolve problemas de perda de contexto e dependência de informações de longa distância
  • A arquitetura Mamba otimiza o processamento de sequências longas, permitindo capturar informações de textos extensos com um método de cálculo eficiente
    • Nas mesmas condições de implantação, a velocidade de decodificação é 2 vezes maior
  • Na etapa de pós-treinamento do modelo, 96,7% de todo o poder computacional foi investido em aprendizado por reforço
    • Foram coletados conjuntos de dados com diversos problemas, incluindo matemática, raciocínio lógico, ciência e código, para fortalecer a capacidade de raciocínio do modelo
    • O desempenho do modelo foi reforçado por meio de feedback de resposta correta e feedback de usuários em tempo real
    • Foi aplicado um método de aprendizado por currículo
      • A dificuldade dos dados é aumentada gradualmente, ao mesmo tempo em que se expande o comprimento de contexto do modelo
      • Reforço da capacidade de usar tokens com eficiência
  • Estratégia de aprendizado por reforço: aplicação das estratégias de reaprendizado de dados e redefinição de política → melhoria de mais de 50% na estabilidade do treinamento
  • Sistema de recompensa
    • Adoção de um método de autorecompensa → o próprio modelo avalia e pontua suas saídas
    • Aplicação de um sistema de recompensa abrangente → reforço da eficiência informacional e dos detalhes de conteúdo do modelo

Avaliação de desempenho em benchmarks

  • Excelente desempenho em métricas de raciocínio em chinês e inglês, como MMLU-pro, CEval, AIME e Zebra Logic
  • Desempenho equivalente ao DeepSeek R1 ou resultados ligeiramente melhores
    • Leva vantagem em criatividade cultural, resumo de texto e capacidade de agente
  • Obteve 87,2 pontos na avaliação MMLU-PRO → demonstrou excelente memória e compreensão em 14 áreas, como humanidades, ciências sociais e ciência e tecnologia
  • Registrou 69,3 pontos na avaliação GPQA-diamond → confirmou capacidade de resolver problemas de física, química e biologia em nível de doutorado
  • Demonstrou forte desempenho em código, matemática e raciocínio lógico
    • Obteve 64,9 pontos no LiveCodeBench → confirmou capacidade de escrever e compreender código
    • 96,2 pontos no MATH-500 → demonstrou capacidade de resolver problemas matemáticos próxima à do DeepSeek R1
  • Obteve 91,9 pontos no ArenaHard → mostrou forte adaptabilidade em várias tarefas de alinhamento, seguimento de instruções e uso de ferramentas

1 comentários

 
GN⁺ 2025-03-23
Comentários no Hacker News
  • O excelente desempenho do modelo prova de forma bastante clara que o aprendizado por reforço desempenha um papel importante no processo de otimização
    • Isso levanta a dúvida: se esse aprendizado por reforço não estiver produzindo respostas melhores em outros contextos e estiver apenas manipulando benchmarks, como poderíamos perceber isso?
  • Depois de usar este modelo um pouco, parece que ele tende a responder em chinês a perguntas em inglês
  • O modelo grande deles tinha 389b parâmetros; fico curioso para saber quão grande é o modelo ultragrande
  • Estão saindo modelos demais ultimamente e há tanto avanço na área de IA que está difícil acompanhar
    • Não dá para ter certeza do que é realmente revolucionário ou importante
  • É interessante ver um modelo baseado em Mamba funcionando bem
  • A romanização desses nomes sempre é confusa
    • Quando os caracteres e os tons são removidos, vira apenas uma sequência de letras sem significado
    • "Hunyuan", ou 混元 em chinês, significa "caos primordial" ou "unidade primordial"
    • Isso também ajuda a memorizar, à medida que mais produtos e serviços chineses chegam ao mercado
    • É semelhante à popularidade da mitologia grega em produtos ocidentais (por exemplo, todos os produtos chamados "Apollo")
  • Fico me perguntando se o fato de estarem vinculando uma demo no Huggingface sugere que vão publicar os pesos
  • Kobe?