8 pontos por GN⁺ 2024-01-28 | 1 comentários | Compartilhar no WhatsApp

Criando grandes modelos de linguagem (do zero)

  • Um livro para descobrir como os grandes modelos de linguagem (Large Language Models, LLMs) funcionam internamente
  • Explica como criar seu próprio LLM passo a passo com texto claro, diagramas e exemplos
  • Como treinar e desenvolver um modelo pequeno, mas funcional, para fins educacionais reflete a abordagem usada para criar grandes modelos fundamentais como o ChatGPT

Sumário

  • O arquivo Readme.md é um arquivo Markdown, e é recomendável visualizá-lo adequadamente usando um editor ou visualizador de Markdown
  • Os títulos de cada capítulo, o código principal e o código auxiliar estão resumidos no sumário
  • Inclui um apêndice de introdução ao PyTorch e instruções adicionais sobre instalação do Python e de pacotes Python

Opinião do GN⁺:

  • Este livro explica em detalhes o processo de criar grandes modelos de linguagem do zero e é muito útil para engenheiros de software iniciantes interessados na área de inteligência artificial.
  • Oferece conteúdo interessante para leitores que desejam entender os fundamentos de tecnologias inovadoras como o ChatGPT.
  • O guia passo a passo com exemplos de código reais ajudará os aprendizes a aplicar a teoria na prática.

1 comentários

 
GN⁺ 2024-01-28
Comentários do Hacker News
  • Estou escrevendo um guia complementar, que está em vários estágios de conclusão. Até agora, o guia de fine-tuning é o melhor material.

  • Este guia parece incrível. Minha dúvida é se o objetivo principal é ajudar na compreensão e desmistificar o tema, ou incentivar as pessoas a criarem seus próprios modelos pequenos para atender às suas necessidades.

  • Escrever um livro técnico em público vem com um nível inimaginável de ansiedade, então presto minha homenagem ao autor.

  • Fico me perguntando se é possível aprender sobre aprendizado por reforço usando as informações deste livro. O objetivo seria aprender a pousar algo como um módulo lunar. Começando de forma simples a 100 pés de altura, impulsionando em uma direção e tentando até não criar uma cratera. Depois, adicionar variáveis, por exemplo mover-se horizontalmente enquanto adiciona propulsores horizontais, e assim por diante. Fico curioso se este livro ajudaria com esse ML mais "tradicional".

  • Como pode ser visto no primeiro exemplo de código, não começa totalmente do zero.

    import torch
    
  • Achei que este material seria gratuito e fui para o Github. Com todo o respeito pelo trabalho do autor, fico curioso sobre quais materiais gratuitos "do zero" existem e são recomendados nessa área.

  • A arquitetura do modelo em si não é tão complexa, especialmente ao usar torch. O processo todo é um projeto bem simples e viável de executar.

  • Isso provavelmente seria classificado como "Show HN".

  • Obrigado por este trabalho. Existe uma previsão de quando o livro estará concluído?

  • Comprei uma cópia! Estou ansioso para ler. :) Existe alguma forma de os leitores enviarem feedback enquanto você escreve o livro?