2 pontos por GN⁺ 2024-02-05 | 1 comentários | Compartilhar no WhatsApp

Introdução

  • Este texto explora como modelos de linguagem de pequeno porte preveem o próximo token.
  • Em vez de focar no mecanismo de autoatenção (self-attention) dos modelos Transformer, ele oferece uma explicação de como os resultados do cálculo de atenção se convertem em previsões precisas do próximo token.
  • O autor examina os estados internos por meio de um pequeno Transformer funcional e compartilha resultados valiosos obtidos ao longo de uma investigação profunda de 6 meses.

Estrutura do bloco Transformer

  • Um bloco Transformer é composto por uma camada de autoatenção multi-head e uma rede feedforward.
  • A saída da rede feedforward é o principal fator que determina como o bloco transforma a entrada em saída.

Proposta: como o Transformer funciona

  • Cada bloco Transformer aprende pesos para associar um determinado prompt a classes de strings dentro dos dados de treinamento.
  • A distribuição dos tokens que vêm após essas classes de strings corresponde aproximadamente ao que o bloco produz como previsão para o próximo token.

Implementação: aproximação da saída do Transformer usando a saída da rede feedforward

  • O autor apresenta um procedimento concreto para aproximar a saída do Transformer usando a saída da rede feedforward.
  • Esse procedimento começa executando o prompt no modelo e armazenando a saída da rede feedforward de cada bloco.
  • Em seguida, busca-se, nos dados de treinamento, strings que gerem saídas semelhantes da rede feedforward, e constrói-se a distribuição de frequência dos tokens que vêm depois dessas strings.
  • Essas distribuições são somadas com aplicação de pesos e normalizadas para obter a distribuição de probabilidade final.

Opinião do GN⁺

  • Este estudo oferece uma compreensão profunda do funcionamento interno dos modelos Transformer. Em especial, os insights sobre o processo após a autoatenção são importantes para entender o mecanismo de previsão desses modelos.
  • A abordagem do autor fornece uma explicação clara de como os Transformers reconhecem padrões nos dados de treinamento e, com base nisso, preveem o próximo token.
  • Este texto pode ser um material útil para quem pesquisa ou desenvolve modelos Transformer, além de contribuir para aprofundar a compreensão na área de processamento de linguagem por IA.

1 comentários

 
GN⁺ 2024-02-05
Opinião do Hacker News
  • Não se surpreendam com um novo fenômeno. Se você não ler a teoria já estabelecida, pode acabar confuso com fenômenos que surgem naturalmente.

    • O experimento parece rigoroso, e a atenção aos detalhes é impressionante.
    • É importante equilibrar o aprendizado da teoria existente com a redescoberta da teoria do zero.
    • O fato de o modelo maximizar a log-verossimilhança com base nos dados de treinamento é um resultado natural.
    • Entender os fundamentos é importante, e a teoria da entropia de Shannon pode ser um bom ponto de partida.
  • Reação positiva ao fato de alguém ter de fato implementado a ideia levantada pelo Google de que, se você fizer o ChatGPT repetir a mesma palavra, ele acaba despejando os dados de treinamento.

    • Isso levanta perguntas adicionais:
      1. A abordagem de "IA sem IA" é mais eficiente em termos de energia do que os métodos existentes de compressão de modelos?
      2. Esse resultado pode ser usado como prova nos processos contra a OpenAI e a Stability AI?
  • Surpresa com o fenômeno de Attention e redes FF (Feed Forward) apontarem na mesma direção.

    • Mesmo que as redes FF possam fazer uma rotação arbitrária, eu não esperava que estivessem no mesmo espaço latente em várias camadas.
  • Ao treinar um modelo pequeno seguindo o tutorial do NanoGPT de Andrej Karpathy, ele pareceu entender até certo ponto uma gramática russa complexa.

    • O modelo não é perfeito, mas conseguiu inferir regras complexas com apenas três minutos de treinamento.
  • Pergunta sobre se LLM é um gerador de texto por cadeia de Markov.

    • Se for, surge a dúvida se seria possível construir uma cadeia de Markov com desempenho semelhante usando os dados originais de treinamento.
  • O modelo estudado é, na prática, apenas um modelo de brinquedo, que poderia ser aproximado por um modelo ainda mais simples.

    • No entanto, esse modelo talvez não represente como LLMs maiores funcionam.
  • É difícil entender com precisão o que o autor está querendo afirmar.

    • Li várias vezes a seção "por que a aproximação funciona", mas ela parece apenas uma explicação passo a passo do transformer.
  • A visualização 3D do sistema de LLM é útil e deve ser lida junto para ter o máximo efeito.

  • Um post estranho sobre o que os transformers realmente fazem.

    • Se você acompanhar o código, poderá ver exatamente o que o transformer faz.