Meta revela Megabyte, uma arquitetura inovadora de modelo de IA

xguru · 2023-05-26T10:02:01+09:00

Supera a arquitetura Transformer usada por modelos como o GPT-4, com escalabilidade para processamento mais eficiente e paralelo Transformers são adequados para sequências curtas, mas têm dificuldade para escalar para sequências longas com mais de 1 milhão de tokens, como imagens em alta resolução, podcasts, código e livros Megabyte é uma arquitetura de decodificador em múltiplas escalas capaz de modelar sequências com mais de 1 milhão de tokens Divide as sequências de entrada e saída em "patches", em vez de tokens individuais Um modelo local de IA gera resultados para cada patch, enquanto um modelo global gerencia e coordena esses patches Nos testes, o modelo Megabyte com 1,5 bilhão (1.5B) de parâmetros construiu sequências 40% mais rápido do que um modelo Transformer com 350 milhões (350M) de parâmetros Os testes mostraram capacidade para até 1,2M de tokens, superando com folga os 32.000 tokens do GPT-4 e os 100 mil tokens do Claude

(artisana.ai)

14 pontos por xguru 2023-05-26 | 2 comentários | Compartilhar no WhatsApp

Supera a arquitetura Transformer usada por modelos como o GPT-4, com escalabilidade para processamento mais eficiente e paralelo
Transformers são adequados para sequências curtas, mas têm dificuldade para escalar para sequências longas com mais de 1 milhão de tokens, como imagens em alta resolução, podcasts, código e livros
Megabyte é uma arquitetura de decodificador em múltiplas escalas capaz de modelar sequências com mais de 1 milhão de tokens
- Divide as sequências de entrada e saída em "patches", em vez de tokens individuais
- Um modelo local de IA gera resultados para cada patch, enquanto um modelo global gerencia e coordena esses patches
Nos testes, o modelo Megabyte com 1,5 bilhão (1.5B) de parâmetros construiu sequências 40% mais rápido do que um modelo Transformer com 350 milhões (350M) de parâmetros
Os testes mostraram capacidade para até 1,2M de tokens, superando com folga os 32.000 tokens do GPT-4 e os 100 mil tokens do Claude

2 comentários

ninebow 2023-05-27

O texto abaixo é uma tradução autorizada de um artigo de introdução sobre o Megabyte, escrito pela ENCORD, uma startup de infraestrutura e ferramentas de IA. :)

https://discuss.pytorch.kr/t/…

cosine20 2023-05-27

Também está no texto principal, mas aqui está o link do artigo: https://arxiv.org/abs/2305.07185

Meta revela Megabyte, uma arquitetura inovadora de modelo de IA

Leituras relacionadas

2 comentários