Tencent Hunyuan-T1 - o primeiro modelo de grande escala baseado na arquitetura Mamba

(llm.hunyuan.tencent.com)

2 pontos por GN⁺ 2025-03-23 | 1 comentários | Compartilhar no WhatsApp

O Hunyuan-T1 é um modelo MoE Hybrid-Transformer-Mamba de grande escala baseado no TurboS
Por meio de aprendizado de pós-treinamento em larga escala, expande a capacidade de raciocínio de acordo com as preferências humanas e melhora o desempenho
A capacidade de processar textos longos do TurboS resolve problemas de perda de contexto e dependência de informações de longa distância
A arquitetura Mamba otimiza o processamento de sequências longas, permitindo capturar informações de textos extensos com um método de cálculo eficiente
- Nas mesmas condições de implantação, a velocidade de decodificação é 2 vezes maior
Na etapa de pós-treinamento do modelo, 96,7% de todo o poder computacional foi investido em aprendizado por reforço
- Foram coletados conjuntos de dados com diversos problemas, incluindo matemática, raciocínio lógico, ciência e código, para fortalecer a capacidade de raciocínio do modelo
- O desempenho do modelo foi reforçado por meio de feedback de resposta correta e feedback de usuários em tempo real
- Foi aplicado um método de aprendizado por currículo
  - A dificuldade dos dados é aumentada gradualmente, ao mesmo tempo em que se expande o comprimento de contexto do modelo
  - Reforço da capacidade de usar tokens com eficiência
Estratégia de aprendizado por reforço: aplicação das estratégias de reaprendizado de dados e redefinição de política → melhoria de mais de 50% na estabilidade do treinamento
Sistema de recompensa
- Adoção de um método de autorecompensa → o próprio modelo avalia e pontua suas saídas
- Aplicação de um sistema de recompensa abrangente → reforço da eficiência informacional e dos detalhes de conteúdo do modelo

Avaliação de desempenho em benchmarks

Excelente desempenho em métricas de raciocínio em chinês e inglês, como MMLU-pro, CEval, AIME e Zebra Logic
Desempenho equivalente ao DeepSeek R1 ou resultados ligeiramente melhores
- Leva vantagem em criatividade cultural, resumo de texto e capacidade de agente
Obteve 87,2 pontos na avaliação MMLU-PRO → demonstrou excelente memória e compreensão em 14 áreas, como humanidades, ciências sociais e ciência e tecnologia
Registrou 69,3 pontos na avaliação GPQA-diamond → confirmou capacidade de resolver problemas de física, química e biologia em nível de doutorado
Demonstrou forte desempenho em código, matemática e raciocínio lógico
- Obteve 64,9 pontos no LiveCodeBench → confirmou capacidade de escrever e compreender código
- 96,2 pontos no MATH-500 → demonstrou capacidade de resolver problemas matemáticos próxima à do DeepSeek R1
Obteve 91,9 pontos no ArenaHard → mostrou forte adaptabilidade em várias tarefas de alinhamento, seguimento de instruções e uso de ferramentas

1 comentários

GN⁺ 2025-03-23

Comentários no Hacker News

O excelente desempenho do modelo prova de forma bastante clara que o aprendizado por reforço desempenha um papel importante no processo de otimização
- Isso levanta a dúvida: se esse aprendizado por reforço não estiver produzindo respostas melhores em outros contextos e estiver apenas manipulando benchmarks, como poderíamos perceber isso?
Depois de usar este modelo um pouco, parece que ele tende a responder em chinês a perguntas em inglês
O modelo grande deles tinha 389b parâmetros; fico curioso para saber quão grande é o modelo ultragrande
Estão saindo modelos demais ultimamente e há tanto avanço na área de IA que está difícil acompanhar
- Não dá para ter certeza do que é realmente revolucionário ou importante
É interessante ver um modelo baseado em Mamba funcionando bem
A romanização desses nomes sempre é confusa
- Quando os caracteres e os tons são removidos, vira apenas uma sequência de letras sem significado
- "Hunyuan", ou 混元 em chinês, significa "caos primordial" ou "unidade primordial"
- Isso também ajuda a memorizar, à medida que mais produtos e serviços chineses chegam ao mercado
- É semelhante à popularidade da mitologia grega em produtos ocidentais (por exemplo, todos os produtos chamados "Apollo")
Fico me perguntando se o fato de estarem vinculando uma demo no Huggingface sugere que vão publicar os pesos
Kobe?

Tencent Hunyuan-T1 - o primeiro modelo de grande escala baseado na arquitetura Mamba

Avaliação de desempenho em benchmarks

Leituras relacionadas

1 comentários

Comentários no Hacker News