Como implementar passo a passo um LLM semelhante ao ChatGPT do zero
(github.com/rasbt)Criando grandes modelos de linguagem (do zero)
- Um livro para descobrir como os grandes modelos de linguagem (Large Language Models, LLMs) funcionam internamente
- Explica como criar seu próprio LLM passo a passo com texto claro, diagramas e exemplos
- Como treinar e desenvolver um modelo pequeno, mas funcional, para fins educacionais reflete a abordagem usada para criar grandes modelos fundamentais como o ChatGPT
Sumário
- O arquivo
Readme.mdé um arquivo Markdown, e é recomendável visualizá-lo adequadamente usando um editor ou visualizador de Markdown - Os títulos de cada capítulo, o código principal e o código auxiliar estão resumidos no sumário
- Inclui um apêndice de introdução ao PyTorch e instruções adicionais sobre instalação do Python e de pacotes Python
Opinião do GN⁺:
- Este livro explica em detalhes o processo de criar grandes modelos de linguagem do zero e é muito útil para engenheiros de software iniciantes interessados na área de inteligência artificial.
- Oferece conteúdo interessante para leitores que desejam entender os fundamentos de tecnologias inovadoras como o ChatGPT.
- O guia passo a passo com exemplos de código reais ajudará os aprendizes a aplicar a teoria na prática.
1 comentários
Comentários do Hacker News
Estou escrevendo um guia complementar, que está em vários estágios de conclusão. Até agora, o guia de fine-tuning é o melhor material.
Este guia parece incrível. Minha dúvida é se o objetivo principal é ajudar na compreensão e desmistificar o tema, ou incentivar as pessoas a criarem seus próprios modelos pequenos para atender às suas necessidades.
Escrever um livro técnico em público vem com um nível inimaginável de ansiedade, então presto minha homenagem ao autor.
Fico me perguntando se é possível aprender sobre aprendizado por reforço usando as informações deste livro. O objetivo seria aprender a pousar algo como um módulo lunar. Começando de forma simples a 100 pés de altura, impulsionando em uma direção e tentando até não criar uma cratera. Depois, adicionar variáveis, por exemplo mover-se horizontalmente enquanto adiciona propulsores horizontais, e assim por diante. Fico curioso se este livro ajudaria com esse ML mais "tradicional".
Como pode ser visto no primeiro exemplo de código, não começa totalmente do zero.
Achei que este material seria gratuito e fui para o Github. Com todo o respeito pelo trabalho do autor, fico curioso sobre quais materiais gratuitos "do zero" existem e são recomendados nessa área.
A arquitetura do modelo em si não é tão complexa, especialmente ao usar torch. O processo todo é um projeto bem simples e viável de executar.
Isso provavelmente seria classificado como "Show HN".
Obrigado por este trabalho. Existe uma previsão de quando o livro estará concluído?
Comprei uma cópia! Estou ansioso para ler. :) Existe alguma forma de os leitores enviarem feedback enquanto você escreve o livro?