Visualização de LLM

(bbycroft.net)

43 pontos por GN⁺ 2025-09-05 | 1 comentários | Compartilhar no WhatsApp

Grandes modelos de linguagem baseados em GPT: apresenta brevemente o funcionamento do nano-gpt
O objetivo deste modelo é receber uma sequência de 6 caracteres e ordená-los em ordem alfabética
Cada caractere é tratado como um token, e todos os tokens possuem um índice de token único
Cada índice de token é convertido em um vetor de embedding de 48 dimensões e passa por uma série de camadas Transformer
O modelo prevê o próximo token, e o resultado pode ser reutilizado de forma iterativa para desenvolver a sequência de entrada

Introdução ao modelo de linguagem GPT

Este documento é um material que explica visualmente como funciona um grande modelo de linguagem GPT
Aqui é usado o nano-gpt, um modelo bem pequeno (cerca de 85.000 parâmetros)
O objetivo do modelo é receber uma sequência composta por 6 caracteres e ordená-la em ordem alfabética (ex.: "ABBBCC")

Tokens e vocabulário

Cada caractere é definido como um token, e o conjunto de todos os tokens reconhecidos pelo modelo é chamado de vocabulário (vocabulary)
Na tabela, cada token recebe um número único (índice de token)
A sequência numérica desses índices de token é usada como entrada do modelo

Transformação de entrada e embeddings

Na visualização 3D, as células verdes representam os números em processamento, e as células azuis representam os pesos (weights) do modelo
Cada número de entrada é convertido em um vetor de embedding de 48 dimensões
Esses embeddings passam sequencialmente por várias camadas Transformer dentro da arquitetura do modelo

Saída e processo de previsão

A saída do modelo é apresentada como a probabilidade do próximo token previsto para aquela sequência
Na 6ª posição de entrada, ele prevê a distribuição de probabilidade de o próximo token ser 'A', 'B' ou 'C'
No exemplo, o modelo prevê que 'A' tem a maior probabilidade
Esse resultado previsto é inserido novamente na entrada, repetindo o processo até gerar a sequência completa

1 comentários

GN⁺ 2025-09-05

Comentários no Hacker News

É realmente complexo e impressionante; a forma como o processo é visualizado é muito legal
Há material relacionado, caso você queira saber mais sobre outras coisas
LLM Visualization - dezembro de 2023, 131 comentários
Há outro material de visualização de transformer feito por pesquisadores do Georgia Tech
https://poloclub.github.io/transformer-explainer/
E também recomendam o famoso material de visualização chamado 'The Illustrated Transformer'
https://jalammar.github.io/illustrated-transformer/
Também há uma postagem de Sebastian Raschka, PhD, sobre a arquitetura
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Neste comentário do Hacker News dá para ver vários recursos de uma vez
https://news.ycombinator.com/item?id=35712334
A visualização é realmente interessante; é irônico que possamos ver visualmente todo o processo, mas ainda não entender completamente os critérios internos de tomada de decisão do modelo; quando procurei sobre isso há cerca de um ano, ainda não havia avanço nessa parte
Esse conteúdo de visualização é tão bom que estou planejando mostrar para as crianças no clube de computação que meu filho de 5 anos frequenta
- Desse jeito, deve ser ótimo para fazer as crianças tirarem uma soneca
Parece uma obra de arte realmente grandiosa e impressionante; obrigado por fazer isso
Eu já gostava muito deste material de visualização há bastante tempo
https://alphacode.deepmind.com/
(No celular, é só apertar play, dar zoom out até o final e depois rolar para baixo)
Seria muito legal se visualizações de LLM como esta virassem uma ferramenta educacional; por exemplo, daria para mostrar como a attention se move durante o processo de geração ou como o prompt influencia a saída; visualizações interativas assim realmente ajudariam a entender o que está acontecendo nos bastidores
Acho isso realmente excelente; quando tiver tempo, quero explorar a fundo; se combinado com ferramentas de observação, acho que esse material pode permitir que cientistas investiguem o interior do modelo, conhecido como uma "caixa-preta"
Agora finalmente entendi; este material é um recurso realmente incrível; obrigado pelo tempo e esforço

Visualização de LLM

Introdução ao modelo de linguagem GPT

Tokens e vocabulário

Transformação de entrada e embeddings

Saída e processo de previsão

Leituras relacionadas

1 comentários

Comentários no Hacker News