[Tradução] Explicação do Megabyte da Meta AI

(discuss.pytorch.kr)

12 pontos por ninebow 2023-05-27 | Ainda não há comentários. | Compartilhar no WhatsApp

Introdução à principal arquitetura do MegaByte
- Patch Embedder: faz o embedding da entrada e a divide em patches
- Global Module: transformador autorregressivo que realiza self-attention
- Local Module: prevê o próximo patch com base na entrada recebida do modelo global
Introdução ao Multiscale Transformer
Introdução ao Autoregressive Transformer
Problemas dos modelos atuais: tokenization, escalabilidade, velocidade de geração
Soluções propostas
- Self-attention com custo computacional reduzido para O(N^(4/3))
- Aplicação da camada feedforward em nível de patch
- Processamento paralelo durante a decodificação
(Adicional) Atualizações recentes da Meta AI
- SAM: https://pt.news.hada.io/topic?id=8893
- MTIA: https://pt.news.hada.io/topic?id=9246
- DINOv2: https://pt.news.hada.io/topic?id=9269
- ImageBIND: https://pt.news.hada.io/topic?id=9156
- (Não está no artigo, mas adicionalmente) MMS: https://pt.news.hada.io/topic?id=9245
- (Também não está no artigo) LIMA: https://pt.news.hada.io/topic?id=9239

Leituras relacionadas