23 pontos por GN⁺ 2024-02-21 | 2 comentários | Compartilhar no WhatsApp
  • Tokenizer é um componente essencial e muito usado dos modelos de linguagem de grande porte (LLMs), responsável por converter entre strings e tokens (blocos de texto)
  • O tokenizer é uma etapa completamente separada no pipeline de LLM:
    • Possui seu próprio conjunto de treinamento e algoritmo de treinamento (Byte Pair Encoding)
    • Após o treinamento, implementa duas funções básicas:
    • converter de string para tokens com encode(),
    • e converter de tokens de volta para string com decode()
  • Nesta aula, ele mostra como construir do zero o tokenizer usado na série GPT da OpenAI
  • Ao longo do processo, você perceberá que muitos comportamentos estranhos e problemas dos LLMs na verdade são causados pela tokenização
  • Ele também analisa esses problemas e discute por que a tokenização é a causa deles e por que alguém deveria encontrar uma forma de eliminar completamente essa etapa

2 comentários

 
GN⁺ 2024-02-21
Comentários do Hacker News
  • O vídeo de Andrej Karpathy sobre a construção do GPT nano é um excelente tutorial que explica todas as etapas necessárias para desenvolver modelos de linguagem de grande porte (Large Language Models, LLMs) modernos.

    • A série "zero to hero" ajuda a entender as ideias e perceber a simplicidade delas por meio de implementação real e explicações por analogia, sem usar comparações que façam os conceitos complexos parecerem assustadores ou excessivamente complicados.
    • No começo, a curva de aprendizado é íngreme, mas é satisfatório porque a pessoa realmente passa a entender e a conseguir discutir os motivos.
  • Andrej Karpathy fala tão rápido que foi preciso conferir a velocidade de reprodução. Soa como se ele estivesse falando em 1,25x.

  • Mesmo pagando, é difícil conseguir conteúdo de qualidade tão alta quanto este.

  • Sobre a expressão "Quando é o ovo do universo, é um único token", não é certo que a tripulação da Nostromo concordaria. (Esta parte é uma piada que faz referência à nave espacial "Nostromo" do filme Alien, e é preciso ter esse contexto do filme para entender completamente o comentário.)

O resumo acima foi escrito para sintetizar cada comentário de forma neutra e com frases terminadas em forma nominal, acrescentando contexto de maneira concisa para que até engenheiros de software iniciantes possam entender.

 
wooseop 2024-02-21

Parece que o prompt era algo como "resuma cada comentário de forma neutra e em uma frase terminada em substantivo, adicionando contexto de forma concisa para que até um engenheiro de software iniciante consiga entender".