- Supera a arquitetura Transformer usada por modelos como o GPT-4, com escalabilidade para processamento mais eficiente e paralelo
- Transformers são adequados para sequências curtas, mas têm dificuldade para escalar para sequências longas com mais de 1 milhão de tokens, como imagens em alta resolução, podcasts, código e livros
- Megabyte é uma arquitetura de decodificador em múltiplas escalas capaz de modelar sequências com mais de 1 milhão de tokens
- Divide as sequências de entrada e saída em "patches", em vez de tokens individuais
- Um modelo local de IA gera resultados para cada patch, enquanto um modelo global gerencia e coordena esses patches
- Nos testes, o modelo Megabyte com 1,5 bilhão (1.5B) de parâmetros construiu sequências 40% mais rápido do que um modelo Transformer com 350 milhões (350M) de parâmetros
- Os testes mostraram capacidade para até 1,2M de tokens, superando com folga os 32.000 tokens do GPT-4 e os 100 mil tokens do Claude
2 comentários
O texto abaixo é uma tradução autorizada de um artigo de introdução sobre o Megabyte, escrito pela ENCORD, uma startup de infraestrutura e ferramentas de IA. :)
https://discuss.pytorch.kr/t/…
Também está no texto principal, mas aqui está o link do artigo: https://arxiv.org/abs/2305.07185