47 pontos por GN⁺ 2023-12-04 | 1 comentários | Compartilhar no WhatsApp
  • Um guia que explica visualmente como funcionam grandes modelos de linguagem como GPT-2, nano-gpt e GPT-3
  • Índice: introdução e conhecimentos prévios, embeddings, normalização de camada, self-attention, projeção, MLP, transformer, Softmax, saída

Resumo da seção de introdução completa

  • No caso do nano-gpt, ele tem 85.000 parâmetros
  • O objetivo é ordenar em ordem alfabética uma string dada de seis letras
  • O processo de receber a string C B A B B C como entrada e ordená-la como ABBBCC pode ser usado como exemplo.
  • Cada letra da string é chamada de token, e o vocabulário do modelo é composto por vários tokens
  • Cada token recebe um índice numérico, que é então inserido no modelo
  • Cada número é convertido em um vetor de 48 elementos, chamado de embedding
  • Os embeddings passam por uma série de camadas chamadas transformer.
  • Por fim, o modelo prevê a probabilidade do próximo token da sequência dada
  • O token previsto é inserido novamente no topo do modelo, e todo o processo se repete

1 comentários

 
GN⁺ 2023-12-04
Opiniões do Hacker News
  • É uma ferramenta muito útil para entender LLMs de forma fundamental

    • Foi avaliada como uma excelente ferramenta para compreender em profundidade como os LLMs realmente funcionam.
    • Há a sugestão de consultar model.py do minGPT caso não esteja claro por que existem 48 elementos no primeiro array.
    • Foi levantada a opinião de que seria bom mencionar isso no artigo, já que essas decisões estruturais podem confundir quem não conhece bem o contexto.
  • Ficaram impressionados ao ver a complexidade algorítmica expressa com clareza em um espaço 3D

    • Houve admiração pela forma como a complexidade do algoritmo foi representada claramente em 3D.
    • Também apareceu o desejo pessoal de ter conhecimento suficiente para entender bem a exatidão disso.
  • Esta visualização é realmente impressionante

    • Havia vontade de se aprofundar nisso há muito tempo, e o modelo 3D é surpreendente como ferramenta educacional.
  • É o tipo de visualização que estavam procurando há meses

    • Houve grande satisfação ao encontrar uma forma de visualização buscada há tanto tempo.
    • Também expressaram agradecimento por esse material estar disponível gratuitamente.
  • Daria até para intitular como “dissecando a magia em multiplicação de matrizes e produto escalar”

    • O que mais impressiona é o fato de LLMs funcionarem tão bem.
  • O modelo 3D é impressionante do ponto de vista educacional

    • Foi destacada a opinião de que o modelo 3D é muito marcante como ferramenta educacional.
    • Também foi considerado um excelente material para aprendizado aprofundado.
  • Ainda mais impressionante é como os LLMs conseguem funcionar tão bem

    • Houve uma avaliação positiva da análise dos princípios de funcionamento dos LLMs em um nível mais básico.
    • Também foi expressa ainda mais surpresa com o fato de os LLMs funcionarem tão bem.
  • A explicação sobre o poder da self-attention muitas vezes fica de fora

    • Diferentemente das redes neurais tradicionais, camadas de self-attention ponderam de forma adaptativa as conexões entre entradas com base no contexto.
    • Com isso, transformers conseguem realizar em uma única camada tarefas que redes tradicionais precisariam de várias camadas para executar.
  • O autor compartilhou mais contexto sobre esse trabalho em uma thread no Twitter

    • O autor compartilhou contexto adicional sobre esse trabalho por meio de uma thread no Twitter.
  • Para quem quiser uma versão de baixa dimensionalidade para o próprio modelo, recomendam a biblioteca Netron

    • Houve uma avaliação positiva e uma recomendação da biblioteca Netron para visualização de arquitetura de modelos.
  • Não é apenas um modelo 3D simples, mas um trabalho profundo

    • A princípio pareceu ser apenas um modelo 3D simples, mas houve admiração pela profundidade do conteúdo acompanhado de animações.
  • Esta visualização é realmente impressionante

    • Se tivessem visto isso quando estavam tentando entender transformers, tudo teria sido muito mais fácil.
  • É por isso que amam o Hacker News

    • Houve uma reação positiva ao fato de materiais tão bons serem compartilhados no Hacker News.