43 pontos por GN⁺ 2025-09-05 | 1 comentários | Compartilhar no WhatsApp
  • Grandes modelos de linguagem baseados em GPT: apresenta brevemente o funcionamento do nano-gpt
  • O objetivo deste modelo é receber uma sequência de 6 caracteres e ordená-los em ordem alfabética
  • Cada caractere é tratado como um token, e todos os tokens possuem um índice de token único
  • Cada índice de token é convertido em um vetor de embedding de 48 dimensões e passa por uma série de camadas Transformer
  • O modelo prevê o próximo token, e o resultado pode ser reutilizado de forma iterativa para desenvolver a sequência de entrada

Introdução ao modelo de linguagem GPT

  • Este documento é um material que explica visualmente como funciona um grande modelo de linguagem GPT
  • Aqui é usado o nano-gpt, um modelo bem pequeno (cerca de 85.000 parâmetros)
  • O objetivo do modelo é receber uma sequência composta por 6 caracteres e ordená-la em ordem alfabética (ex.: "ABBBCC")

Tokens e vocabulário

  • Cada caractere é definido como um token, e o conjunto de todos os tokens reconhecidos pelo modelo é chamado de vocabulário (vocabulary)
  • Na tabela, cada token recebe um número único (índice de token)
  • A sequência numérica desses índices de token é usada como entrada do modelo

Transformação de entrada e embeddings

  • Na visualização 3D, as células verdes representam os números em processamento, e as células azuis representam os pesos (weights) do modelo
  • Cada número de entrada é convertido em um vetor de embedding de 48 dimensões
  • Esses embeddings passam sequencialmente por várias camadas Transformer dentro da arquitetura do modelo

Saída e processo de previsão

  • A saída do modelo é apresentada como a probabilidade do próximo token previsto para aquela sequência
  • Na 6ª posição de entrada, ele prevê a distribuição de probabilidade de o próximo token ser 'A', 'B' ou 'C'
  • No exemplo, o modelo prevê que 'A' tem a maior probabilidade
  • Esse resultado previsto é inserido novamente na entrada, repetindo o processo até gerar a sequência completa

1 comentários

 
GN⁺ 2025-09-05
Comentários no Hacker News
  • É realmente complexo e impressionante; a forma como o processo é visualizado é muito legal
  • Há material relacionado, caso você queira saber mais sobre outras coisas
    LLM Visualization - dezembro de 2023, 131 comentários
  • Há outro material de visualização de transformer feito por pesquisadores do Georgia Tech
    https://poloclub.github.io/transformer-explainer/
    E também recomendam o famoso material de visualização chamado 'The Illustrated Transformer'
    https://jalammar.github.io/illustrated-transformer/
    Também há uma postagem de Sebastian Raschka, PhD, sobre a arquitetura
    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    Neste comentário do Hacker News dá para ver vários recursos de uma vez
    https://news.ycombinator.com/item?id=35712334
  • A visualização é realmente interessante; é irônico que possamos ver visualmente todo o processo, mas ainda não entender completamente os critérios internos de tomada de decisão do modelo; quando procurei sobre isso há cerca de um ano, ainda não havia avanço nessa parte
  • Esse conteúdo de visualização é tão bom que estou planejando mostrar para as crianças no clube de computação que meu filho de 5 anos frequenta
    • Desse jeito, deve ser ótimo para fazer as crianças tirarem uma soneca
  • Parece uma obra de arte realmente grandiosa e impressionante; obrigado por fazer isso
  • Eu já gostava muito deste material de visualização há bastante tempo
    https://alphacode.deepmind.com/
    (No celular, é só apertar play, dar zoom out até o final e depois rolar para baixo)
  • Seria muito legal se visualizações de LLM como esta virassem uma ferramenta educacional; por exemplo, daria para mostrar como a attention se move durante o processo de geração ou como o prompt influencia a saída; visualizações interativas assim realmente ajudariam a entender o que está acontecendo nos bastidores
  • Acho isso realmente excelente; quando tiver tempo, quero explorar a fundo; se combinado com ferramentas de observação, acho que esse material pode permitir que cientistas investiguem o interior do modelo, conhecido como uma "caixa-preta"
  • Agora finalmente entendi; este material é um recurso realmente incrível; obrigado pelo tempo e esforço