9 pontos por xguru 2023-12-13 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Usa o Hyena, uma nova arquitetura para substituir o Transformer e dar suporte a contexto ultra longo
    • Hyena é baseado em um modelo de sequência inspirado em processamento de sinais
  • Primeiro modelo alternativo a competir com Transformers em avaliações de contexto curto/longo
  • Apresenta desempenho semelhante ao Llama-2, Yi e Mistral 7B nas tarefas do leaderboard OpenLLM, com ótimo desempenho em resumo de contexto longo
  • O StripedHyena é mais rápido e mais eficiente em memória para treinamento, ajuste fino e geração com sequências longas
  • Otimizado com uma nova técnica de enxerto de modelos (Model Grafting), que permite alterar a arquitetura do modelo durante o treinamento
    • O StripedHyena foi obtido ao enxertar componentes de arquitetura de Transformer e Hyena, e treinado com uma mistura do conjunto de dados RedPajama reforçada com dados de contexto mais longo

Ainda não há comentários.

Ainda não há comentários.