- Usa o Hyena, uma nova arquitetura para substituir o Transformer e dar suporte a contexto ultra longo
- Hyena é baseado em um modelo de sequência inspirado em processamento de sinais
- Primeiro modelo alternativo a competir com Transformers em avaliações de contexto curto/longo
- Apresenta desempenho semelhante ao Llama-2, Yi e Mistral 7B nas tarefas do leaderboard OpenLLM, com ótimo desempenho em resumo de contexto longo
- O StripedHyena é mais rápido e mais eficiente em memória para treinamento, ajuste fino e geração com sequências longas
- Otimizado com uma nova técnica de enxerto de modelos (Model Grafting), que permite alterar a arquitetura do modelo durante o treinamento
- O StripedHyena foi obtido ao enxertar componentes de arquitetura de Transformer e Hyena, e treinado com uma mistura do conjunto de dados RedPajama reforçada com dados de contexto mais longo
Ainda não há comentários.