Introdução
- Este texto explora como modelos de linguagem de pequeno porte preveem o próximo token.
- Em vez de focar no mecanismo de autoatenção (
self-attention) dos modelos Transformer, ele oferece uma explicação de como os resultados do cálculo de atenção se convertem em previsões precisas do próximo token.
- O autor examina os estados internos por meio de um pequeno Transformer funcional e compartilha resultados valiosos obtidos ao longo de uma investigação profunda de 6 meses.
Estrutura do bloco Transformer
- Um bloco Transformer é composto por uma camada de autoatenção multi-head e uma rede feedforward.
- A saída da rede feedforward é o principal fator que determina como o bloco transforma a entrada em saída.
Proposta: como o Transformer funciona
- Cada bloco Transformer aprende pesos para associar um determinado prompt a classes de strings dentro dos dados de treinamento.
- A distribuição dos tokens que vêm após essas classes de strings corresponde aproximadamente ao que o bloco produz como previsão para o próximo token.
Implementação: aproximação da saída do Transformer usando a saída da rede feedforward
- O autor apresenta um procedimento concreto para aproximar a saída do Transformer usando a saída da rede feedforward.
- Esse procedimento começa executando o prompt no modelo e armazenando a saída da rede feedforward de cada bloco.
- Em seguida, busca-se, nos dados de treinamento, strings que gerem saídas semelhantes da rede feedforward, e constrói-se a distribuição de frequência dos tokens que vêm depois dessas strings.
- Essas distribuições são somadas com aplicação de pesos e normalizadas para obter a distribuição de probabilidade final.
Opinião do GN⁺
- Este estudo oferece uma compreensão profunda do funcionamento interno dos modelos Transformer. Em especial, os insights sobre o processo após a autoatenção são importantes para entender o mecanismo de previsão desses modelos.
- A abordagem do autor fornece uma explicação clara de como os Transformers reconhecem padrões nos dados de treinamento e, com base nisso, preveem o próximo token.
- Este texto pode ser um material útil para quem pesquisa ou desenvolve modelos Transformer, além de contribuir para aprofundar a compreensão na área de processamento de linguagem por IA.
1 comentários
Opinião do Hacker News
Não se surpreendam com um novo fenômeno. Se você não ler a teoria já estabelecida, pode acabar confuso com fenômenos que surgem naturalmente.
Reação positiva ao fato de alguém ter de fato implementado a ideia levantada pelo Google de que, se você fizer o ChatGPT repetir a mesma palavra, ele acaba despejando os dados de treinamento.
Surpresa com o fenômeno de Attention e redes FF (Feed Forward) apontarem na mesma direção.
Ao treinar um modelo pequeno seguindo o tutorial do NanoGPT de Andrej Karpathy, ele pareceu entender até certo ponto uma gramática russa complexa.
Pergunta sobre se LLM é um gerador de texto por cadeia de Markov.
O modelo estudado é, na prática, apenas um modelo de brinquedo, que poderia ser aproximado por um modelo ainda mais simples.
É difícil entender com precisão o que o autor está querendo afirmar.
A visualização 3D do sistema de LLM é útil e deve ser lida junto para ter o máximo efeito.
Um post estranho sobre o que os transformers realmente fazem.