Treinando um LLM completamente do zero
- Há muita curiosidade sobre a experiência da Reka ao treinar com sucesso modelos de linguagem multimodais poderosos.
- Compartilha os desafios e as lições de construir infraestrutura e treinar grandes modelos de linguagem e multimodais do zero.
- Espera que este post seja interessante e educativo para muitas pessoas.
A loteria do hardware na era dos LLMs
- O primeiro requisito essencial para treinar modelos é garantir poder computacional.
- Surpreendeu-se com a instabilidade dos provedores de computação e com as diferenças de qualidade entre clusters, aceleradores e conectividade.
- A diferença de qualidade do hardware é grande, e isso na prática é como uma verdadeira “loteria do hardware” para o treinamento.
GPU vs TPU
- Na Reka, os modelos são treinados principalmente com GPUs.
- Em comparação com a experiência anterior no Google usando TPUs, surpreendeu-se com a taxa de falhas das GPUs.
- A capacidade da equipe de hardware é importante, o que reforça a ideia de “loteria do hardware”.
A dor de configurar múltiplos clusters
- A ideia de ter que configurar novos ambientes em vários clusters era algo pouco familiar.
- É inevitável ter pools de aceleradores distribuídos por vários clusters.
- Há inconveniências para lidar com grandes volumes de dados, e replicar dados não é simples em larga escala.
Código na selva
- T5X e MeshTensorflow eram codebases favoritas, mas fora do Google têm pouco suporte e são difíceis de usar.
- Optou-se pelo PyTorch, que é mais acessível.
- Sentiu-se que a qualidade dos codebases externos fica atrás da encontrada dentro do Google.
Menos princípios, mais YOLO
- Em princípio, o modelo deveria ser escalado de forma sistemática, mas em uma startup, com menos recursos computacionais, acabam acontecendo muitas execuções no estilo YOLO.
- Treinar um modelo poderoso com tentativas limitadas é um desafio.
Resumo
- A experiência no mundo real foi interessante, mas dolorosa.
- A falta de recursos computacionais e a instabilidade dos provedores tornaram tudo mais difícil do que o esperado, mas isso foi superado com força técnica.
- Conta apenas uma parte do processo de abrir a empresa, captar recursos, comprar chips e competir com Gemini pro/GPT 3.5, além de superar muitos outros.
Opinião do GN⁺
- Este artigo mostra bem os problemas e desafios reais que uma startup enfrenta ao treinar um grande modelo de linguagem do zero. Isso pode oferecer insights realistas para engenheiros de software iniciantes.
- A importância da escolha do hardware, assim como as diferenças de taxa de falha e nível de suporte, são fatores que startups ou pequenas empresas precisam considerar ao iniciar grandes projetos.
- O artigo destaca as limitações técnicas enfrentadas por startups em comparação com a infraestrutura de grandes empresas como o Google. Isso mostra por que startups precisam ser cuidadosas ao fazer escolhas tecnológicas.
- O processo de construir a infraestrutura e as ferramentas necessárias para treinar modelos de grande escala em uma startup pode ser extremamente complexo e difícil. Esse é um ponto importante na escolha de provedores de nuvem ou na decisão de montar hardware próprio.
- Apesar dos problemas e desafios técnicos, o texto transmite uma mensagem positiva de que startups podem superar dificuldades com força técnica e alcançar resultados bem-sucedidos.
1 comentários
Opiniões no Hacker News